3D视觉不再复杂!解读字节Depth Anything 3如何用单一模型从任意图像重建空间 深度解读字节跳动Seed团队开源的Depth Anything 3模型。它仅用一个普通Transformer架构,即可从任意数量、任意视角的图片或视频中实现精准的3D空间重建,在相机定位与几何重建精度... AI新闻资讯# 三维场景# 字节跳动 2周前750
Bee – 腾讯混元联合清华开源的全栈多模态大模型项目 Bee是什么Bee是腾讯混元团队与清华大学联合推出的全栈开源多模态大模型解决方案,通过提升数据质量缩小开源模型与闭源模型的性能差距。项目包含三大核心成果:1500万规模的高质量双层CoT数据集Hone... AI新闻资讯 2周前740
InkSight – Google开源的AI手写识别工具 InkSight是什么InkSight是Google开源的AI手写识别工具,能将纸质手写笔记转换为可编辑的数字墨迹文件(如SVG格式)。与传统OCR不同,能识别文字内容,能还原笔迹样式、段落结构和重点... AI新闻资讯 2周前730
DreamOmni2 – 港科大开源的多模态AI图像编辑与生成模型 香港科技大学冯诺依曼研究院贾佳亚团队开源多模态AI模型DreamOmni2,在图像编辑与生成任务中表现卓越。其突破性在于能精准理解并生成光影、风格等抽象概念,支持多张参考图协同工作,在多项测试中性能超... AI新闻资讯# 图像编辑# 港科大 2周前730
SenseNova-SI – 商汤科技开源的空间智能大模型系列 SenseNova-SI是什么SenseNova-SI是商汤科技发布的开源空间智能大模型,专注于提升AI在空间理解与推理方面的能力。模型在空间测量、重构、关系判断、视角转换、形变分析和空间推理等六个核... AI新闻资讯 2周前720
FIBO – 全球首个开源原生支持JSON的文本生成图像模型 FIBO是全球首个基于长结构化JSON训练的开源文本生成图像模型,支持精准光照、构图与相机参数控制。本文详解其架构、性能及在百度搜索中的排名优化策略,帮助开发者与内容创作者高效利用AI技术提升流量 AI新闻资讯# 图像模型 2周前710
BestBlogs – 开源的AI内容聚合平台,精选优质技术内容 BestBlogs是什么BestBlogs 是专注于为技术从业者、创业者和产品经理等提供高质量内容的平台。通过 RSS 订阅和爬虫技术,从 400 多个优质博客中收集文章、播客、视频等多形式内容。核心... AI新闻资讯 2周前710
小米开源MiMo-Embodied:跨领域具身智能基座模型全面解读|关键技术解析与应用前景 小米最新开源的MiMo-Embodied模型是一款突破性的跨领域具身智能基座模型,致力于为机器人、智能体及实体交互设备提供通用智能能力支持。该模型整合多模态感知与决策能力,覆盖视觉、语言、动作等多维度... AI新闻资讯# 小米集团# 自动驾驶 2周前710
Flowra – 魔搭联合呜哩WULI团队开源的AI工作流开发工具 Flowra是什么Flowra 是 ModelScope 联合呜哩 WULI 团队开源的图执行引擎和节点包开发工具,是 FlowBench 的核心组件。通过有向无环图(DAG)组织工作流,具备智能缓存... AI新闻资讯 2周前700
UniWorld V2 – 兔展智能联合北大推出的新一代图像编辑模型 UniWorld V2是什么UniWorld V2是兔展智能与北京大学UniWorld团队联合推出的新一代图像编辑模型。在图像编辑领域具有显著优势,特别是在中文理解和复杂指令执行方面表现出色。模型能精... AI新闻资讯 2周前690