悟界·Emu3.5正式开源:智源最强多模态世界模型,性能超越Nano Banana,开启AI新纪元 北京智源人工智能研究院(BAAI)重磅开源其最新研究成果——悟界·Emu3.5多模态世界大模型。这款拥有340亿参数的模型基于总计约790年的互联网长视频数据进行训练,首次揭示了“多模态Scaling... AI新闻资讯# 图文生成 2周前810
阿里AIDC-AI团队开源Ovis-Image:7B小参数文生图模型,文本渲染能力媲美GPT-4 阿里AIDC-AI团队于2025年12月开源的高性能文生图模型Ovis-Image,仅7B参数量即实现卓越图像生成与精准中英文文本渲染,性能对标GPT-4o等超大模型,显存占用低,单张高端显卡即可部署... AI新闻资讯# LOGO# 图像生成# 文生图 1周前980
Alpamayo-R1 – 英伟达开源的带推理能力的视觉-语言-行动模型 英伟达(NVIDIA)于2025年12月正式开源其最新的视觉-语言-行动(VLA)模型——Alpamayo-R1。该模型是全球首个专注于自动驾驶场景并开源的VLA大模型,旨在通过引入“因果链”推理能力... AI新闻资讯# 智能交通# 自动驾驶# 英伟达 1周前680
字节跳动Vidi2模型重磅发布:120亿参数实现精准视频时空定位,革新多模态AI理解与编辑 字节跳动最新开源的多模态视频大模型Vidi2,凭借120亿参数与创新的精细时空定位(STG)技术,能精准识别并定位视频中的对象与动作-9。它不仅彻底改变了从文字到视频的搜索方式,让视频内容可直接被“问... AI新闻资讯 1周前630
Mistral 3 – Mistral AI发布开源的最新多模态大模型系列 Mistral 3是什么Mistral 3是Mistral AI发布开源的最新多模态大模型系列,包含旗舰模型Mistral Large 3(675B总参数)和轻量版Ministral系列(3B/8B... AI新闻资讯 2周前820
GigaWorld-0 – 极佳视界开源的世界模型框架 GigaWorld-0是什么GigaWorld-0是国内具身智能创业公司极佳视界(GigaAI)开源的世界模型框架,主要用于解决具身智能(Embodied AI)领域的数据瓶颈问题。高效生成高质量、多... AI新闻资讯 2周前740
PartCrafter – 北大联合字节开源的单图3D生成模型 PartCrafter是什么PartCrafter 是先进的 3D 生成模型,由北京大学、字节跳动和卡耐基梅隆大学联合提出。能从单张 RGB 图像中一次性生成多个语义明确且几何形态各异的 3D 网格部... AI新闻资讯 2周前1190
MemMachine – MemVerge推出的开源AI记忆系统 MemMachine是什么MemMachine是MemVerge公司开发的开源AI记忆系统,专为AI大模型和智能体设计,能像人脑一样存储和回忆交互数据,解决AI“无状态失忆”问题。采用分层架构(短期记... AI新闻资讯 2周前820
TalkCody – 免费开源的AI编程桌面助手,支持复杂任务 TalkCody是什么 TalkCody是免费开源的AI编程助手桌面应用,基于Rust + Tauri 2构建,支持Windows、macOS和Linux三大平台,具有原生性能、快速启动和低资源占用的... AI新闻资讯# AI编程 2周前1130
Supertonic – 开源的AI文本转语音系统,完全离线极速合成 Supertonic是什么 Supertonic 是 Supertone 开源的高性能文本转语音(TTS)系统,具备极速性能和轻量级。仅包含66M参数,生成语音的速度可达167倍实时速度,是目前最快的... AI新闻资讯# AI工具# 教育软件# 文本转语音 2周前1400