AI新闻资讯

悟界·Emu3.5正式开源：智源最强多模态世界模型，性能超越Nano Banana，开启AI新纪元

北京智源人工智能研究院（BAAI）重磅开源其最新研究成果——悟界·Emu3.5多模态世界大模型。这款拥有340亿参数的模型基于总计约790年的互联网长视频数据进行训练，首次揭示了“多模态Scaling...

AI新闻资讯 # 图文生成

2周前

810

阿里AIDC-AI团队开源Ovis-Image：7B小参数文生图模型，文本渲染能力媲美GPT-4

阿里AIDC-AI团队于2025年12月开源的高性能文生图模型Ovis-Image，仅7B参数量即实现卓越图像生成与精准中英文文本渲染，性能对标GPT-4o等超大模型，显存占用低，单张高端显卡即可部署...

AI新闻资讯 # LOGO # 图像生成 # 文生图

1周前

980

Alpamayo-R1 – 英伟达开源的带推理能力的视觉-语言-行动模型

英伟达（NVIDIA）于2025年12月正式开源其最新的视觉-语言-行动（VLA）模型——Alpamayo-R1。该模型是全球首个专注于自动驾驶场景并开源的VLA大模型，旨在通过引入“因果链”推理能力...

AI新闻资讯 # 智能交通 # 自动驾驶 # 英伟达

1周前

680

字节跳动Vidi2模型重磅发布：120亿参数实现精准视频时空定位，革新多模态AI理解与编辑

字节跳动最新开源的多模态视频大模型Vidi2，凭借120亿参数与创新的精细时空定位（STG）技术，能精准识别并定位视频中的对象与动作-9。它不仅彻底改变了从文字到视频的搜索方式，让视频内容可直接被“问...

AI新闻资讯

1周前

630

Mistral 3 – Mistral AI发布开源的最新多模态大模型系列

Mistral 3是什么Mistral 3是Mistral AI发布开源的最新多模态大模型系列，包含旗舰模型Mistral Large 3（675B总参数）和轻量版Ministral系列（3B/8B...

AI新闻资讯

2周前

820

GigaWorld-0 – 极佳视界开源的世界模型框架

GigaWorld-0是什么GigaWorld-0是国内具身智能创业公司极佳视界（GigaAI）开源的世界模型框架，主要用于解决具身智能（Embodied AI）领域的数据瓶颈问题。高效生成高质量、多...

AI新闻资讯

2周前

740

PartCrafter – 北大联合字节开源的单图3D生成模型

PartCrafter是什么PartCrafter 是先进的 3D 生成模型，由北京大学、字节跳动和卡耐基梅隆大学联合提出。能从单张 RGB 图像中一次性生成多个语义明确且几何形态各异的 3D 网格部...

AI新闻资讯

2周前

1190

MemMachine – MemVerge推出的开源AI记忆系统

MemMachine是什么MemMachine是MemVerge公司开发的开源AI记忆系统，专为AI大模型和智能体设计，能像人脑一样存储和回忆交互数据，解决AI“无状态失忆”问题。采用分层架构（短期记...

AI新闻资讯

2周前

820

TalkCody – 免费开源的AI编程桌面助手，支持复杂任务

TalkCody是什么 TalkCody是免费开源的AI编程助手桌面应用，基于Rust + Tauri 2构建，支持Windows、macOS和Linux三大平台，具有原生性能、快速启动和低资源占用的...

AI新闻资讯 # AI编程

2周前

1130

Supertonic – 开源的AI文本转语音系统，完全离线极速合成

Supertonic是什么 Supertonic 是 Supertone 开源的高性能文本转语音（TTS）系统，具备极速性能和轻量级。仅包含66M参数，生成语音的速度可达167倍实时速度，是目前最快的...

AI新闻资讯 # AI工具 # 教育软件 # 文本转语音

2周前

1400

标签云

热门资讯