Sora 2 – OpenAI 推出的新一代AI音视频生成模型 Sora 2是什么 Sora 2 是 OpenAI 推出的新一代AI音视频生成模型,Web端最长支持生成25秒视频(需Sora Pro会员)。技术上实现了三大核心突破:通过多模态联合训练,首次实现了环... AI新闻资讯# AI工具 2周前0530
聆音EchoCare – 香港中科院推出的超声大模型 聆音是什么 聆音(EchoCare)是中国科学院香港创新研究院人工智能与机器人创新中心(CAIR)推出的超声大模型。模型依托450万张超声影像数据集EchoAtlas进行训练,数据集涵盖5个大洲的23... AI新闻资讯# AI工具 2周前0750
Tinker API – Thinking Machines Lab推出的模型微调API Tinker API是什么 Tinker API 是 Thinking Machines Lab 发布的首款产品,专为语言模型微调而设计。简化语言模型的微调流程,让研究人员和开发者能专注于算法和数据... AI新闻资讯# AI工具 2周前0330
Logics-Parsing – 阿里开源的端到端文档解析模型 Logics-Parsing是什么 Logics-Parsing 是阿里巴巴开源的端到端文档解析模型,基于 Qwen2.5-VL-7B。通过强化学习优化文档布局分析和阅读顺序推断,能将 PDF 图像转... AI新闻资讯# AI工具 2周前0530
Dreamer 4 – DeepMind推出的新型世界模型智能体 Dreamer 4是什么 Dreamer 4 是由 DeepMind 开发的新型智能体,通过在快速且准确的世界模型中进行想象训练来解决复杂的控制任务。在《我的世界》(Minecraft)游戏中,Dre... AI新闻资讯# AI工具 2周前0770
LONGLIVE – 英伟达等推出的交互式长视频生成框架 LONGLIVE是什么 LONGLIVE 是英伟达等顶尖机构联合推出的实时交互式长视频生成框架。框架通过帧级自回归(AR)模型,结合 KV-recache 机制、流式长视频微调和短窗口注意力 + 帧汇... AI新闻资讯# AI工具 2周前0470
FG-CLIP 2 – 360开源的双语细粒度视觉语言对齐模型 FG-CLIP 2是什么 FG-CLIP 2是360推出的开源双语细粒度视觉语言对齐模型,专为解决视觉与语言的精准对齐问题而设计。在视觉语言理解领域取得了重大突破,尤其在中英文双语任务上表现出色。模型... AI新闻资讯# AI工具 2周前0420
Mano – 明略科技推出的GUI智能操作模型 Mano是什么 Mano 是明略科技推出的专有大模型,专注于图形用户界面(GUI)智能操作。模型基于多模态基础模型,通过在线强化学习和训练数据自动采集等创新技术,在 Mind2Web 和 OSWorl... AI新闻资讯# AI工具 2周前0440
Handy – 开源的语音转文字桌面应用,完全离线 Handy是什么 Handy 是开源的语音转文字桌面应用,完全离线运行,支持 Windows、macOS 和 Linux 系统。由 Rust 和 React/TypeScript 构建,界面简洁,操作... AI新闻资讯# AI工具 2周前0440
NavFoM – 银河通用推出的环视导航基座大模型 NavFoM是什么 NavFoM(Navigation Foundation Model)是银河通用联合北京大学、阿德莱德大学、浙江大学等团队发布的全球首个跨本体全域环视导航基座大模型。具备全场景支持... AI新闻资讯# AI工具 2周前0290