olmOCR 2 – AI2开源的多模态文档解析模型 艾伦人工智能研究所(AI2)最新开源的多模态文档解析模型OlmOCR-2,以其创新的文档锚定技术,在权威OlmOCR基准测试中获得82.3的高分。它能精准解析PDF中的复杂表格、数学公式及多栏版面,并... AI新闻资讯# OCR# 文本提取 1周前690
OmniVinci – NVIDIA开源的全模态大语言模型 英伟达(NVIDIA)最新开源全模态大语言模型OmniVinci,仅用90亿参数和竞争对手1/6的训练数据,便在多项视频、音频理解基准测试中实现性能超越。本文深入解析其OmniAlignNet等核心技... AI新闻资讯# NVIDIA# 语言模型 1周前940
Ming-flash-omni-Preview – 蚂蚁集团开源的全模态大模型 蚂蚁集团正式开源千亿参数全模态大模型Ming-flash-omni-Preview。该模型基于稀疏MoE架构,仅激活部分参数即可实现文本、图像、语音、视频的顶尖处理能力,在方言识别、图像编辑等任务中性... AI新闻资讯# 克隆# 图像生成# 方言 1周前1190
GigaBrain-0 – 开源的具身基础模型,由世界模型生成数据驱动 GigaBrain-0是全球领先的开源视觉-语言-动作具身基础模型。它创新性地利用GigaWorld世界模型生成高达90%的训练数据,成功突破机器人学习的数据瓶颈。该模型在真实机器人测试中,面对新纹理... AI新闻资讯# 机器人 1周前520
SoulX-Podcast – Soul AI Lab开源的对话式语音合成模型 SoulX-Podcast是由Soul AI Lab联合西北工业大学、上海交通大学开源的高性能对话式语音合成模型,登顶Hugging Face TTS趋势榜。该模型支持中英文、四川话、粤语等多方言,突... AI新闻资讯# 方言# 语音合成 1周前780
FIBO – 全球首个开源原生支持JSON的文本生成图像模型 FIBO是全球首个基于长结构化JSON训练的开源文本生成图像模型,支持精准光照、构图与相机参数控制。本文详解其架构、性能及在百度搜索中的排名优化策略,帮助开发者与内容创作者高效利用AI技术提升流量 AI新闻资讯# 图像模型 1周前710
Kimi Linear – 月之暗面开源的新型混合线性注意力架构 Kimi Linear是什么Kimi Linear 是月之暗面开源的新型混合线性注意力架构,以 Kimi Delta Attention(KDA)为核心,通过更细粒度的门控机制优化了传统注意力模型,显... AI新闻资讯 1周前750
Petri – Anthropic开源的 AI 安全审计框架 Petri是什么Petri 是 Anthropic 开发的开源 AI 安全审计框架,系统性地评估 AI 模型的安全性和行为对齐情况。通过模拟真实场景,让自动化审计员与目标模型进行多轮对话,然后由法官代... AI新闻资讯 1周前750
LongCat-Flash-Omni – 美团开源的全模态大语言模型 LongCat-Flash-Omni是什么LongCat-Flash-Omni 是美团 LongCat 团队发布的开源全模态大语言模型。拥有5600亿参数规模(激活参数270亿),在保持庞大参数量的同... AI新闻资讯 1周前610
ChronoEdit – 英伟达与多伦多大学联合开源的AI图像编辑框架 ChronoEdit是什么ChronoEdit是英伟达与多伦多大学联合研发的开源AI图像编辑框架,将图像编辑任务重新定义为视频生成任务,以确保编辑结果在时间和物理上的一致性。通过从一个 14B 参数的... AI新闻资讯 1周前790