mx131

帅气的我简直无法用语言描述!

LongCat-Image – 美团LongCat团队开源的图像生成与编辑模型

LongCat-Image是什么LongCat-Image是美团LongCat团队发布的开源图像生成与编辑模型。采用混合骨干架构(MM-DiT+Single-DiT),结合视觉语言模型(VLM)条件编...
7天前
520

NewBie-image-Exp0.1 – NewBieAI-Lab开源的实验性动漫文生图模型

NewBie-image-Exp0.1是什么NewBie-image-Exp0.1是NewBieAI-Lab团队开源的首个实验性动漫文生图模型,采用3.5B参数的Next-DiT架构,专为二次元风格优...
7天前
750

InkSight – Google开源的AI手写识别工具

InkSight是什么InkSight是Google开源的AI手写识别工具,能将纸质手写笔记转换为可编辑的数字墨迹文件(如SVG格式)。与传统OCR不同,能识别文字内容,能还原笔迹样式、段落结构和重点...
7天前
730

GLM-4.6V – 智谱AI开源的多模态大语言模型系列

GLM-4.6V是什么GLM-4.6V是智谱AI开源的多模态大语言模型系列,系列包含两个版本:GLM-4.6V(106B-A12B),面向云端与高性能集群场景的基础版,采用混合专家(MoE)架构,总参...
7天前
650

SurfSense – 开源的AI研究与知识管理工具,NotebookLM最强平替

SurfSense是什么SurfSense 是开源的 AI 研究与知识管理工具。高度可定制,能连接搜索引擎、Slack、Jira、Notion、YouTube、GitHub 等众多外部数据源,方便用户...
7天前
640

OpenAutoGLM – 智谱AI开源的手机AI Agent模型

OpenAutoGLM是什么OpenAutoGLM 是智谱AI开源的具有“手机使用”能力的智能体模型,能通过多模态感知理解手机屏幕内容,自动生成操作流程来完成用户指定的任务。用户只需用自然语言描述需求...
7天前
680

AI作曲新突破!SongBloom开源:腾讯联合港中大、南京大学发布歌曲生成大模型

腾讯联合香港中文大学、南京大学正式开源歌曲生成大模型SongBloom。该模型在旋律创作、歌词适配方面取得新进展,提供免费在线试听与体验,为音乐创作者与AIGC开发者提供强大的开源工具。立即了解其技术...
1周前
990

Kandinsky 5.0发布:俄罗斯AI团队开源强大的视频与图像生成大模型

俄罗斯AI研究团队AI-Forever正式开源Kandinsky 5.0基础模型家族,这是一个包含图像与视频生成的全套开源解决方案。该系列提供6B参数的Image Lite图像模型、2B参数的Vide...
1周前
940

DiaMoE-TTS开源:基于IPA与MoE架构,打造低门槛、可扩展的方言语音合成框架

清华大学与巨人网络联合发布首创的多方言语音合成框架DiaMoE-TTS,该模型采用统一的IPA前端与方言感知MoE架构,仅依赖开源数据即可实现媲美工业级的合成效果。项目数据、代码、方法全开源,旨在推动...
1周前
1080

【NeurIPS 2025】首个像素级多模态大模型UniPixel开源:3B参数实现视频理解、分割与推理一体化

香港理工大学与腾讯ARC Lab联合开源的UniPixel,是首个实现像素级推理的统一多模态大模型。它创新性地引入“对象记忆银行”机制,仅凭3B参数即在多项基准测试中超越72B传统模型,支持对视频中目...
1周前
1280