Supertonic – 开源的高性能AI 文本转语音系统,极速离线运行 Supertonic是一款基于开源技术的高性能AI文本转语音系统,支持极速离线运行,无需网络连接即可生成流畅自然的语音。系统采用先进的深度学习模型,提供媲美真人发音的高质量语音输出,支持多语言及声音定... AI新闻资讯# TTS# 文本转语音# 语音克隆 1天前0180
HunyuanOCR – 腾讯混元开源的光学字符识别专家模型 腾讯混元开源的 HunyuanOCR 是一款专业级光学字符识别模型,具备高精度文字检测与识别能力,支持多场景、多语言文档图像处理。该模型基于深度学习技术优化,适用于文档数字化、自然场景文字提取、表格识... AI新闻资讯# 文字检测# 腾讯混元# 视频字幕 1天前0130
Fara-7B – 微软开源的计算机操作Agent助手模型 微软最新开源的Fara-7B是一款专为计算机操作设计的AI Agent助手模型,具备强大的自动化任务执行能力。该模型能够理解自然语言指令,自主操作电脑完成各类任务,如信息检索、软件控制、文件管理等,大... AI新闻资讯# 大模型# 微软 24小时前0290
FLUX.2 – 黑森林开源的图像生成与编辑模型 FLUX.2是由黑森林团队开源的高性能图像生成与编辑模型,支持用户免费进行AI绘画、智能修图及高清图像创作。该模型集成了先进的生成算法与编辑功能,适用于艺术设计、内容创作、学术研究等多个领域,助力用户... AI新闻资讯# 图像生成# 文生图 24小时前0100
ViMax – 香港大学开源多智能体视频生成框架,赋能高效AI视频创作与自动生成技术 ViMax 是香港大学推出的开源多智能体视频生成框架,致力于通过协同AI智能体技术,实现高效、自动化的视频内容生成。该框架结合先进的神经网络与多智能体协作机制,为视频创作、动态内容合成及AI视觉生成提... AI新闻资讯# 图生视频# 小说转视频# 视频生成 24小时前0120
ROCK:深度解析阿里巴巴开源的智能体训练环境沙箱——强化学习与多模态AI开发实战平台 ROCK是阿里巴巴开源的高效智能体训练环境沙箱,专注于强化学习与多模态AI开发。该平台提供安全可控的仿真环境,支持智能体决策训练、多任务学习与虚实结合实验,助力研究者和开发者构建更智能的AI系统。结合... AI新闻资讯# 智能体# 阿里巴巴 24小时前0190
Z-Image开源模型解析:阿里通义实验室6B参数轻量级AI图像生成器的性能与突破 阿里通义实验室开源的Z-Image图像生成模型,以仅6B的参数量实现了重大突破。其Turbo版本支持8步亚秒级生成,在RTX 3060等消费级显卡上即可运行,显著降低了高性能AI绘画的门槛。该模型在照... AI新闻资讯# 创意图像# 图像生成# 阿里通义 23小时前0220
DeepSeek-Math-V2:全球首个开源IMO金牌数学大模型,定义自验证推理新范式 DeepSeek-Math-V2是DeepSeek最新发布的开源数学推理模型,首次实现国际数学奥林匹克竞赛(IMO)金牌水平并全面开源。该模型基于自验证训练框架,通过LLM验证器与生成器的协同优化,在... AI新闻资讯# deepseek# 数学 23小时前0130
3D视觉不再复杂!解读字节Depth Anything 3如何用单一模型从任意图像重建空间 深度解读字节跳动Seed团队开源的Depth Anything 3模型。它仅用一个普通Transformer架构,即可从任意数量、任意视角的图片或视频中实现精准的3D空间重建,在相机定位与几何重建精度... AI新闻资讯# 三维场景# 字节跳动 23小时前0130
阶跃星辰GELab-Zero正式开源:端侧4B多模态GUI Agent模型,刷新多项SOTA,实现消费级硬件本地推理 阶跃星辰重磅开源GELab-Zero套组及4B GUI Agent预览模型,在ScreenSpot、OSWorld等多项权威基准测试中全面刷新性能纪录,取得同尺寸SOTA成绩。该模型专为端侧部署设计... AI新闻资讯# 一键部署# 轻量化 23小时前0110