RoboCOIN – 智源联合多所高校开源的双臂机器人真机数据集 RoboCOIN是什么RoboCOIN是北京智源人工智能研究院联合多家企业和高校开源的全球首个大规模双臂机器人真机数据集,包含15种机器人平台、18万条真实操作轨迹和421种任务场景。最大特点是采用分... AI新闻资讯 2周前930
Flowra – 魔搭联合呜哩WULI团队开源的AI工作流开发工具 Flowra是什么Flowra 是 ModelScope 联合呜哩 WULI 团队开源的图执行引擎和节点包开发工具,是 FlowBench 的核心组件。通过有向无环图(DAG)组织工作流,具备智能缓存... AI新闻资讯 2周前700
VibeVoice-Realtime – 微软开源的轻量级实时文本转语音模型 VibeVoice-Realtime是什么VibeVoice-Realtime 是微软开源的轻量级实时文本转语音(TTS)模型,专为低延迟和实时交互设计。支持流式文本输入,从第一个文本 token 开... AI新闻资讯 2周前660
悟界·Emu3.5正式开源:智源最强多模态世界模型,性能超越Nano Banana,开启AI新纪元 北京智源人工智能研究院(BAAI)重磅开源其最新研究成果——悟界·Emu3.5多模态世界大模型。这款拥有340亿参数的模型基于总计约790年的互联网长视频数据进行训练,首次揭示了“多模态Scaling... AI新闻资讯# 图文生成 2周前810
阶跃星辰GELab-Zero正式开源:端侧4B多模态GUI Agent模型,刷新多项SOTA,实现消费级硬件本地推理 阶跃星辰重磅开源GELab-Zero套组及4B GUI Agent预览模型,在ScreenSpot、OSWorld等多项权威基准测试中全面刷新性能纪录,取得同尺寸SOTA成绩。该模型专为端侧部署设计... AI新闻资讯# 一键部署# 轻量化 2周前570
3D视觉不再复杂!解读字节Depth Anything 3如何用单一模型从任意图像重建空间 深度解读字节跳动Seed团队开源的Depth Anything 3模型。它仅用一个普通Transformer架构,即可从任意数量、任意视角的图片或视频中实现精准的3D空间重建,在相机定位与几何重建精度... AI新闻资讯# 三维场景# 字节跳动 2周前720
DeepSeek-Math-V2:全球首个开源IMO金牌数学大模型,定义自验证推理新范式 DeepSeek-Math-V2是DeepSeek最新发布的开源数学推理模型,首次实现国际数学奥林匹克竞赛(IMO)金牌水平并全面开源。该模型基于自验证训练框架,通过LLM验证器与生成器的协同优化,在... AI新闻资讯# deepseek# 数学 2周前470
Z-Image开源模型解析:阿里通义实验室6B参数轻量级AI图像生成器的性能与突破 阿里通义实验室开源的Z-Image图像生成模型,以仅6B的参数量实现了重大突破。其Turbo版本支持8步亚秒级生成,在RTX 3060等消费级显卡上即可运行,显著降低了高性能AI绘画的门槛。该模型在照... AI新闻资讯# 创意图像# 图像生成# 阿里通义 2周前920
ROCK:深度解析阿里巴巴开源的智能体训练环境沙箱——强化学习与多模态AI开发实战平台 ROCK是阿里巴巴开源的高效智能体训练环境沙箱,专注于强化学习与多模态AI开发。该平台提供安全可控的仿真环境,支持智能体决策训练、多任务学习与虚实结合实验,助力研究者和开发者构建更智能的AI系统。结合... AI新闻资讯# 智能体# 阿里巴巴 2周前690
ViMax – 香港大学开源多智能体视频生成框架,赋能高效AI视频创作与自动生成技术 ViMax 是香港大学推出的开源多智能体视频生成框架,致力于通过协同AI智能体技术,实现高效、自动化的视频内容生成。该框架结合先进的神经网络与多智能体协作机制,为视频创作、动态内容合成及AI视觉生成提... AI新闻资讯# 图生视频# 小说转视频# 视频生成 2周前430