AI新闻资讯

OmniVinci – NVIDIA开源的全模态大语言模型

英伟达(NVIDIA)最新开源全模态大语言模型OmniVinci，仅用90亿参数和竞争对手1/6的训练数据，便在多项视频、音频理解基准测试中实现性能超越。本文深入解析其OmniAlignNet等核心技...

AI新闻资讯 # NVIDIA # 语言模型

1周前

940

olmOCR 2 – AI2开源的多模态文档解析模型

艾伦人工智能研究所（AI2）最新开源的多模态文档解析模型OlmOCR-2，以其创新的文档锚定技术，在权威OlmOCR基准测试中获得82.3的高分。它能精准解析PDF中的复杂表格、数学公式及多栏版面，并...

AI新闻资讯 # OCR # 文本提取

1周前

690

ValueCell – 开源的多智能体金融平台，多个Agent分工协作

ValueCell是一个社区驱动的开源多智能体金融平台，致力于通过多个AI Agent的协同工作，将复杂的投研流程自动化。它集成了市场分析、SEC文件解读、情绪监控与策略交易等多种智能体，支持全球主要...

AI新闻资讯 # OpenAI # OpenRouter # 投资管理

1周前

1280

DreamOmni2 – 港科大开源的多模态AI图像编辑与生成模型

香港科技大学冯诺依曼研究院贾佳亚团队开源多模态AI模型DreamOmni2，在图像编辑与生成任务中表现卓越。其突破性在于能精准理解并生成光影、风格等抽象概念，支持多张参考图协同工作，在多项测试中性能超...

AI新闻资讯 # 图像编辑 # 港科大

1周前

730

混元世界模型1.1 – 腾讯混元发布的开源3D重建大模型

腾讯混元于2025年10月正式开源世界模型1.1版本（WorldMirror），在业内领先的3D生成能力上再次突破。新版支持文本、图像、视频等多模态输入，在单张消费级显卡上即可实现秒级高质量3D场景生...

AI新闻资讯 # 3D大模型 # 混元 # 腾讯

1周前

1050

DeepSeek-OCR – DeepSeek开源的光学字符识别模型

DeepSeek于2025年10月开源了新一代光学字符识别模型DeepSeek-OCR。该模型基于创新的视觉语言模型(VLM)架构，通过DeepEncoder实现高效视觉压缩，在10倍压缩比下仍保持约...

AI新闻资讯 # deepseek # OCR # 文本处理

1周前

1130

AI作曲新突破！SongBloom开源：腾讯联合港中大、南京大学发布歌曲生成大模型

腾讯联合香港中文大学、南京大学正式开源歌曲生成大模型SongBloom。该模型在旋律创作、歌词适配方面取得新进展，提供免费在线试听与体验，为音乐创作者与AIGC开发者提供强大的开源工具。立即了解其技术...

AI新闻资讯 # AI音乐 # 歌曲 # 腾讯

1周前

990

VitaBench – 美团LongCat开源的交互式Agent评测基准

美团LongCat团队正式开源VitaBench，这是一个高度贴近真实生活场景的交互式Agent评测基准。它以外卖点餐、餐厅就餐、旅游出行三大高频场景为载体，构建了包含66种工具的评测环境，旨在解决A...

AI新闻资讯 # 大模型 # 美团

1周前

1070

性能霸榜，全面开源：上海AI Lab联合北大发布文档解析大模型MinerU2.5，1.2B参数超越GPT-4o

上海人工智能实验室与北京大学联合开源高性能文档解析大模型MinerU2.5。该模型以仅1.2B的轻量参数，在OmniDocBench等权威评测中全面超越GPT-4o、Gemini等主流大模型，特别擅长...

AI新闻资讯 # 人工智能 # 北京大学 # 语言模型

1周前

1100

助力Speech LLM落地！美团LongCat开源高效语音编解码方案 (LongCat-Audio-Codec)

针对Speech LLM落地中的音频处理难题，美团LongCat团队正式开源专用语音编解码方案LongCat-Audio-Codec。该方案提供一站式Tokenizer与DeTokenizer工具链...

AI新闻资讯 # 美团 # 翻译 # 语言模型

1周前

1050

标签云

热门资讯