AI新闻资讯

OCR新王登顶！百度开源PaddleOCR-VL：0.9B超轻量模型斩获全球综合性能第一

百度最新开源的PaddleOCR-VL模型，在全球权威评测中以92.6分登顶OCR综合性能榜首。这款参数仅0.9B的超轻量视觉-语言模型，能精准解析文本、表格、公式、手写及图表，支持109种语言，推理...

1周前

1280

【NeurIPS 2025】首个像素级多模态大模型UniPixel开源：3B参数实现视频理解、分割与推理一体化

香港理工大学与腾讯ARC Lab联合开源的UniPixel，是首个实现像素级推理的统一多模态大模型。它创新性地引入“对象记忆银行”机制，仅凭3B参数即在多项基准测试中超越72B传统模型，支持对视频中目...

AI新闻资讯 # 中国科学院 # 人工智能 # 香港理工大学

1周前

1360

DiaMoE-TTS开源：基于IPA与MoE架构，打造低门槛、可扩展的方言语音合成框架

清华大学与巨人网络联合发布首创的多方言语音合成框架DiaMoE-TTS，该模型采用统一的IPA前端与方言感知MoE架构，仅依赖开源数据即可实现媲美工业级的合成效果。项目数据、代码、方法全开源，旨在推动...

AI新闻资讯 # TTS # 巨人网络 # 方言

1周前

1080

Kandinsky 5.0发布：俄罗斯AI团队开源强大的视频与图像生成大模型

俄罗斯AI研究团队AI-Forever正式开源Kandinsky 5.0基础模型家族，这是一个包含图像与视频生成的全套开源解决方案。该系列提供6B参数的Image Lite图像模型、2B参数的Vide...

AI新闻资讯 # 视频制作 # 视频生成

1周前

940

Dexbotic – 原力灵机开源的具身智能VLA模型一站式科研服务平台

Dexbotic是由Dexmal原力灵机重磅开源的一站式具身智能VLA（视觉-语言-动作）模型科研服务平台。该平台旨在解决VLA研究领域技术分散、复现困难的痛点，为研究者提供标准化、模块化的统一基础设...

AI新闻资讯 # 语言模型

1周前

790

LongCat-Video – 美团LongCat开源的视频生成模型

LongCat-Video是什么LongCat-Video是美团LongCat团队开源的13.6亿参数视频生成模型，采用MIT开源协议，支持文生视频、图生视频和视频续写三大任务。模型通过"粗到细"生成...

AI新闻资讯

1周前

770

Kimi Linear – 月之暗面开源的新型混合线性注意力架构

Kimi Linear是什么Kimi Linear 是月之暗面开源的新型混合线性注意力架构，以 Kimi Delta Attention（KDA）为核心，通过更细粒度的门控机制优化了传统注意力模型，显...

AI新闻资讯

1周前

750

Petri – Anthropic开源的 AI 安全审计框架

Petri是什么Petri 是 Anthropic 开发的开源 AI 安全审计框架，系统性地评估 AI 模型的安全性和行为对齐情况。通过模拟真实场景，让自动化审计员与目标模型进行多轮对话，然后由法官代...

AI新闻资讯

1周前

750

LongCat-Flash-Omni – 美团开源的全模态大语言模型

LongCat-Flash-Omni是什么LongCat-Flash-Omni 是美团 LongCat 团队发布的开源全模态大语言模型。拥有5600亿参数规模（激活参数270亿），在保持庞大参数量的同...

AI新闻资讯

1周前

610

360开源全球最强图文模型FG-CLIP2：攻克细粒度识别难题，引领视觉语言智能新纪元

360人工智能研究院开源的FG-CLIP2，是全球领先的图文跨模态视觉语言模型。它在29项全球基准测试中全面超越Google与Meta，攻克了传统AI“细粒度识别”的难题，让机器实现从“看得见”到“看...

AI新闻资讯 # 360 # 人工智能 # 语言模型

1周前

770

标签云

热门资讯