OCR新王登顶!百度开源PaddleOCR-VL:0.9B超轻量模型斩获全球综合性能第一 百度最新开源的PaddleOCR-VL模型,在全球权威评测中以92.6分登顶OCR综合性能榜首。这款参数仅0.9B的超轻量视觉-语言模型,能精准解析文本、表格、公式、手写及图表,支持109种语言,推理... AI新闻资讯# GPT# 精准识别# 语言模型 1周前1280
【NeurIPS 2025】首个像素级多模态大模型UniPixel开源:3B参数实现视频理解、分割与推理一体化 香港理工大学与腾讯ARC Lab联合开源的UniPixel,是首个实现像素级推理的统一多模态大模型。它创新性地引入“对象记忆银行”机制,仅凭3B参数即在多项基准测试中超越72B传统模型,支持对视频中目... AI新闻资讯# 中国科学院# 人工智能# 香港理工大学 1周前1360
DiaMoE-TTS开源:基于IPA与MoE架构,打造低门槛、可扩展的方言语音合成框架 清华大学与巨人网络联合发布首创的多方言语音合成框架DiaMoE-TTS,该模型采用统一的IPA前端与方言感知MoE架构,仅依赖开源数据即可实现媲美工业级的合成效果。项目数据、代码、方法全开源,旨在推动... AI新闻资讯# TTS# 巨人网络# 方言 1周前1080
Kandinsky 5.0发布:俄罗斯AI团队开源强大的视频与图像生成大模型 俄罗斯AI研究团队AI-Forever正式开源Kandinsky 5.0基础模型家族,这是一个包含图像与视频生成的全套开源解决方案。该系列提供6B参数的Image Lite图像模型、2B参数的Vide... AI新闻资讯# 视频制作# 视频生成 1周前940
Dexbotic – 原力灵机开源的具身智能VLA模型一站式科研服务平台 Dexbotic是由Dexmal原力灵机重磅开源的一站式具身智能VLA(视觉-语言-动作)模型科研服务平台。该平台旨在解决VLA研究领域技术分散、复现困难的痛点,为研究者提供标准化、模块化的统一基础设... AI新闻资讯# 语言模型 1周前790
LongCat-Video – 美团LongCat开源的视频生成模型 LongCat-Video是什么LongCat-Video是美团LongCat团队开源的13.6亿参数视频生成模型,采用MIT开源协议,支持文生视频、图生视频和视频续写三大任务。模型通过"粗到细"生成... AI新闻资讯 1周前770
Kimi Linear – 月之暗面开源的新型混合线性注意力架构 Kimi Linear是什么Kimi Linear 是月之暗面开源的新型混合线性注意力架构,以 Kimi Delta Attention(KDA)为核心,通过更细粒度的门控机制优化了传统注意力模型,显... AI新闻资讯 1周前750
Petri – Anthropic开源的 AI 安全审计框架 Petri是什么Petri 是 Anthropic 开发的开源 AI 安全审计框架,系统性地评估 AI 模型的安全性和行为对齐情况。通过模拟真实场景,让自动化审计员与目标模型进行多轮对话,然后由法官代... AI新闻资讯 1周前750
LongCat-Flash-Omni – 美团开源的全模态大语言模型 LongCat-Flash-Omni是什么LongCat-Flash-Omni 是美团 LongCat 团队发布的开源全模态大语言模型。拥有5600亿参数规模(激活参数270亿),在保持庞大参数量的同... AI新闻资讯 1周前610
360开源全球最强图文模型FG-CLIP2:攻克细粒度识别难题,引领视觉语言智能新纪元 360人工智能研究院开源的FG-CLIP2,是全球领先的图文跨模态视觉语言模型。它在29项全球基准测试中全面超越Google与Meta,攻克了传统AI“细粒度识别”的难题,让机器实现从“看得见”到“看... AI新闻资讯# 360# 人工智能# 语言模型 1周前770