AI新闻资讯

Supertonic – 开源的高性能AI 文本转语音系统，极速离线运行

Supertonic是一款基于开源技术的高性能AI文本转语音系统，支持极速离线运行，无需网络连接即可生成流畅自然的语音。系统采用先进的深度学习模型，提供媲美真人发音的高质量语音输出，支持多语言及声音定...

1天前

0180

HunyuanOCR – 腾讯混元开源的光学字符识别专家模型

腾讯混元开源的 HunyuanOCR 是一款专业级光学字符识别模型，具备高精度文字检测与识别能力，支持多场景、多语言文档图像处理。该模型基于深度学习技术优化，适用于文档数字化、自然场景文字提取、表格识...

AI新闻资讯 # 文字检测 # 腾讯混元 # 视频字幕

1天前

0130

Fara-7B – 微软开源的计算机操作Agent助手模型

微软最新开源的Fara-7B是一款专为计算机操作设计的AI Agent助手模型，具备强大的自动化任务执行能力。该模型能够理解自然语言指令，自主操作电脑完成各类任务，如信息检索、软件控制、文件管理等，大...

AI新闻资讯 # 大模型 # 微软

24小时前

0290

FLUX.2 – 黑森林开源的图像生成与编辑模型

FLUX.2是由黑森林团队开源的高性能图像生成与编辑模型，支持用户免费进行AI绘画、智能修图及高清图像创作。该模型集成了先进的生成算法与编辑功能，适用于艺术设计、内容创作、学术研究等多个领域，助力用户...

AI新闻资讯 # 图像生成 # 文生图

24小时前

0100

ViMax – 香港大学开源多智能体视频生成框架，赋能高效AI视频创作与自动生成技术

ViMax 是香港大学推出的开源多智能体视频生成框架，致力于通过协同AI智能体技术，实现高效、自动化的视频内容生成。该框架结合先进的神经网络与多智能体协作机制，为视频创作、动态内容合成及AI视觉生成提...

AI新闻资讯 # 图生视频 # 小说转视频 # 视频生成

24小时前

0120

ROCK：深度解析阿里巴巴开源的智能体训练环境沙箱——强化学习与多模态AI开发实战平台

ROCK是阿里巴巴开源的高效智能体训练环境沙箱，专注于强化学习与多模态AI开发。该平台提供安全可控的仿真环境，支持智能体决策训练、多任务学习与虚实结合实验，助力研究者和开发者构建更智能的AI系统。结合...

AI新闻资讯 # 智能体 # 阿里巴巴

24小时前

0190

Z-Image开源模型解析：阿里通义实验室6B参数轻量级AI图像生成器的性能与突破

阿里通义实验室开源的Z-Image图像生成模型，以仅6B的参数量实现了重大突破。其Turbo版本支持8步亚秒级生成，在RTX 3060等消费级显卡上即可运行，显著降低了高性能AI绘画的门槛。该模型在照...

AI新闻资讯 # 创意图像 # 图像生成 # 阿里通义

23小时前

0220

DeepSeek-Math-V2：全球首个开源IMO金牌数学大模型，定义自验证推理新范式

DeepSeek-Math-V2是DeepSeek最新发布的开源数学推理模型，首次实现国际数学奥林匹克竞赛（IMO）金牌水平并全面开源。该模型基于自验证训练框架，通过LLM验证器与生成器的协同优化，在...

AI新闻资讯 # deepseek # 数学

23小时前

0130

3D视觉不再复杂！解读字节Depth Anything 3如何用单一模型从任意图像重建空间

深度解读字节跳动Seed团队开源的Depth Anything 3模型。它仅用一个普通Transformer架构，即可从任意数量、任意视角的图片或视频中实现精准的3D空间重建，在相机定位与几何重建精度...

AI新闻资讯 # 三维场景 # 字节跳动

23小时前

0130

阶跃星辰GELab-Zero正式开源：端侧4B多模态GUI Agent模型，刷新多项SOTA，实现消费级硬件本地推理

阶跃星辰重磅开源GELab-Zero套组及4B GUI Agent预览模型，在ScreenSpot、OSWorld等多项权威基准测试中全面刷新性能纪录，取得同尺寸SOTA成绩。该模型专为端侧部署设计...

AI新闻资讯 # 一键部署 # 轻量化

23小时前

0110

标签云

热门资讯