mx131 | 第2页 | 美心AI导航

LongCat-Image – 美团LongCat团队开源的图像生成与编辑模型

LongCat-Image是什么LongCat-Image是美团LongCat团队发布的开源图像生成与编辑模型。采用混合骨干架构（MM-DiT+Single-DiT），结合视觉语言模型（VLM）条件编...

AI新闻资讯

7天前

520

NewBie-image-Exp0.1 – NewBieAI-Lab开源的实验性动漫文生图模型

NewBie-image-Exp0.1是什么NewBie-image-Exp0.1是NewBieAI-Lab团队开源的首个实验性动漫文生图模型，采用3.5B参数的Next-DiT架构，专为二次元风格优...

AI新闻资讯

7天前

750

InkSight – Google开源的AI手写识别工具

InkSight是什么InkSight是Google开源的AI手写识别工具，能将纸质手写笔记转换为可编辑的数字墨迹文件（如SVG格式）。与传统OCR不同，能识别文字内容，能还原笔迹样式、段落结构和重点...

AI新闻资讯

7天前

730

GLM-4.6V – 智谱AI开源的多模态大语言模型系列

GLM-4.6V是什么GLM-4.6V是智谱AI开源的多模态大语言模型系列，系列包含两个版本：GLM-4.6V（106B-A12B），面向云端与高性能集群场景的基础版，采用混合专家（MoE）架构，总参...

AI新闻资讯

7天前

650

SurfSense – 开源的AI研究与知识管理工具，NotebookLM最强平替

SurfSense是什么SurfSense 是开源的 AI 研究与知识管理工具。高度可定制，能连接搜索引擎、Slack、Jira、Notion、YouTube、GitHub 等众多外部数据源，方便用户...

AI新闻资讯

7天前

640

OpenAutoGLM – 智谱AI开源的手机AI Agent模型

OpenAutoGLM是什么OpenAutoGLM 是智谱AI开源的具有“手机使用”能力的智能体模型，能通过多模态感知理解手机屏幕内容，自动生成操作流程来完成用户指定的任务。用户只需用自然语言描述需求...

AI新闻资讯

7天前

680

AI作曲新突破！SongBloom开源：腾讯联合港中大、南京大学发布歌曲生成大模型

腾讯联合香港中文大学、南京大学正式开源歌曲生成大模型SongBloom。该模型在旋律创作、歌词适配方面取得新进展，提供免费在线试听与体验，为音乐创作者与AIGC开发者提供强大的开源工具。立即了解其技术...

AI新闻资讯 # AI音乐 # 歌曲 # 腾讯

1周前

990

Kandinsky 5.0发布：俄罗斯AI团队开源强大的视频与图像生成大模型

俄罗斯AI研究团队AI-Forever正式开源Kandinsky 5.0基础模型家族，这是一个包含图像与视频生成的全套开源解决方案。该系列提供6B参数的Image Lite图像模型、2B参数的Vide...

AI新闻资讯 # 视频制作 # 视频生成

1周前

940

DiaMoE-TTS开源：基于IPA与MoE架构，打造低门槛、可扩展的方言语音合成框架

清华大学与巨人网络联合发布首创的多方言语音合成框架DiaMoE-TTS，该模型采用统一的IPA前端与方言感知MoE架构，仅依赖开源数据即可实现媲美工业级的合成效果。项目数据、代码、方法全开源，旨在推动...

AI新闻资讯 # TTS # 巨人网络 # 方言

1周前

1080

【NeurIPS 2025】首个像素级多模态大模型UniPixel开源：3B参数实现视频理解、分割与推理一体化

香港理工大学与腾讯ARC Lab联合开源的UniPixel，是首个实现像素级推理的统一多模态大模型。它创新性地引入“对象记忆银行”机制，仅凭3B参数即在多项基准测试中超越72B传统模型，支持对视频中目...

AI新闻资讯 # 中国科学院 # 人工智能 # 香港理工大学

1周前

1280