AI新闻资讯

olmOCR 2 – AI2开源的多模态文档解析模型

艾伦人工智能研究所（AI2）最新开源的多模态文档解析模型OlmOCR-2，以其创新的文档锚定技术，在权威OlmOCR基准测试中获得82.3的高分。它能精准解析PDF中的复杂表格、数学公式及多栏版面，并...

AI新闻资讯 # OCR # 文本提取

1周前

690

OmniVinci – NVIDIA开源的全模态大语言模型

英伟达(NVIDIA)最新开源全模态大语言模型OmniVinci，仅用90亿参数和竞争对手1/6的训练数据，便在多项视频、音频理解基准测试中实现性能超越。本文深入解析其OmniAlignNet等核心技...

AI新闻资讯 # NVIDIA # 语言模型

1周前

940

Ming-flash-omni-Preview – 蚂蚁集团开源的全模态大模型

蚂蚁集团正式开源千亿参数全模态大模型Ming-flash-omni-Preview。该模型基于稀疏MoE架构，仅激活部分参数即可实现文本、图像、语音、视频的顶尖处理能力，在方言识别、图像编辑等任务中性...

AI新闻资讯 # 克隆 # 图像生成 # 方言

1周前

1190

GigaBrain-0 – 开源的具身基础模型，由世界模型生成数据驱动

GigaBrain-0是全球领先的开源视觉-语言-动作具身基础模型。它创新性地利用GigaWorld世界模型生成高达90%的训练数据，成功突破机器人学习的数据瓶颈。该模型在真实机器人测试中，面对新纹理...

AI新闻资讯 # 机器人

1周前

520

SoulX-Podcast – Soul AI Lab开源的对话式语音合成模型

SoulX-Podcast是由Soul AI Lab联合西北工业大学、上海交通大学开源的高性能对话式语音合成模型，登顶Hugging Face TTS趋势榜。该模型支持中英文、四川话、粤语等多方言，突...

AI新闻资讯 # 方言 # 语音合成

1周前

780

FIBO – 全球首个开源原生支持JSON的文本生成图像模型

FIBO是全球首个基于长结构化JSON训练的开源文本生成图像模型，支持精准光照、构图与相机参数控制。本文详解其架构、性能及在百度搜索中的排名优化策略，帮助开发者与内容创作者高效利用AI技术提升流量

AI新闻资讯 # 图像模型

1周前

710

Kimi Linear – 月之暗面开源的新型混合线性注意力架构

Kimi Linear是什么Kimi Linear 是月之暗面开源的新型混合线性注意力架构，以 Kimi Delta Attention（KDA）为核心，通过更细粒度的门控机制优化了传统注意力模型，显...

AI新闻资讯

1周前

750

Petri – Anthropic开源的 AI 安全审计框架

Petri是什么Petri 是 Anthropic 开发的开源 AI 安全审计框架，系统性地评估 AI 模型的安全性和行为对齐情况。通过模拟真实场景，让自动化审计员与目标模型进行多轮对话，然后由法官代...

AI新闻资讯

1周前

750

LongCat-Flash-Omni – 美团开源的全模态大语言模型

LongCat-Flash-Omni是什么LongCat-Flash-Omni 是美团 LongCat 团队发布的开源全模态大语言模型。拥有5600亿参数规模（激活参数270亿），在保持庞大参数量的同...

AI新闻资讯

1周前

610

ChronoEdit – 英伟达与多伦多大学联合开源的AI图像编辑框架

ChronoEdit是什么ChronoEdit是英伟达与多伦多大学联合研发的开源AI图像编辑框架，将图像编辑任务重新定义为视频生成任务，以确保编辑结果在时间和物理上的一致性。通过从一个 14B 参数的...

AI新闻资讯

1周前

790

标签云

热门资讯