LongCat-Image – 美团LongCat团队开源的图像生成与编辑模型 LongCat-Image是什么LongCat-Image是美团LongCat团队发布的开源图像生成与编辑模型。采用混合骨干架构(MM-DiT+Single-DiT),结合视觉语言模型(VLM)条件编... AI新闻资讯 7天前480
NewBie-image-Exp0.1 – NewBieAI-Lab开源的实验性动漫文生图模型 NewBie-image-Exp0.1是什么NewBie-image-Exp0.1是NewBieAI-Lab团队开源的首个实验性动漫文生图模型,采用3.5B参数的Next-DiT架构,专为二次元风格优... AI新闻资讯 7天前750
InkSight – Google开源的AI手写识别工具 InkSight是什么InkSight是Google开源的AI手写识别工具,能将纸质手写笔记转换为可编辑的数字墨迹文件(如SVG格式)。与传统OCR不同,能识别文字内容,能还原笔迹样式、段落结构和重点... AI新闻资讯 7天前730
GLM-4.6V – 智谱AI开源的多模态大语言模型系列 GLM-4.6V是什么GLM-4.6V是智谱AI开源的多模态大语言模型系列,系列包含两个版本:GLM-4.6V(106B-A12B),面向云端与高性能集群场景的基础版,采用混合专家(MoE)架构,总参... AI新闻资讯 7天前650
SurfSense – 开源的AI研究与知识管理工具,NotebookLM最强平替 SurfSense是什么SurfSense 是开源的 AI 研究与知识管理工具。高度可定制,能连接搜索引擎、Slack、Jira、Notion、YouTube、GitHub 等众多外部数据源,方便用户... AI新闻资讯 7天前640
OpenAutoGLM – 智谱AI开源的手机AI Agent模型 OpenAutoGLM是什么OpenAutoGLM 是智谱AI开源的具有“手机使用”能力的智能体模型,能通过多模态感知理解手机屏幕内容,自动生成操作流程来完成用户指定的任务。用户只需用自然语言描述需求... AI新闻资讯 7天前680
AI作曲新突破!SongBloom开源:腾讯联合港中大、南京大学发布歌曲生成大模型 腾讯联合香港中文大学、南京大学正式开源歌曲生成大模型SongBloom。该模型在旋律创作、歌词适配方面取得新进展,提供免费在线试听与体验,为音乐创作者与AIGC开发者提供强大的开源工具。立即了解其技术... AI新闻资讯# AI音乐# 歌曲# 腾讯 1周前990
Kandinsky 5.0发布:俄罗斯AI团队开源强大的视频与图像生成大模型 俄罗斯AI研究团队AI-Forever正式开源Kandinsky 5.0基础模型家族,这是一个包含图像与视频生成的全套开源解决方案。该系列提供6B参数的Image Lite图像模型、2B参数的Vide... AI新闻资讯# 视频制作# 视频生成 1周前940
DiaMoE-TTS开源:基于IPA与MoE架构,打造低门槛、可扩展的方言语音合成框架 清华大学与巨人网络联合发布首创的多方言语音合成框架DiaMoE-TTS,该模型采用统一的IPA前端与方言感知MoE架构,仅依赖开源数据即可实现媲美工业级的合成效果。项目数据、代码、方法全开源,旨在推动... AI新闻资讯# TTS# 巨人网络# 方言 1周前1080
【NeurIPS 2025】首个像素级多模态大模型UniPixel开源:3B参数实现视频理解、分割与推理一体化 香港理工大学与腾讯ARC Lab联合开源的UniPixel,是首个实现像素级推理的统一多模态大模型。它创新性地引入“对象记忆银行”机制,仅凭3B参数即在多项基准测试中超越72B传统模型,支持对视频中目... AI新闻资讯# 中国科学院# 人工智能# 香港理工大学 1周前1280