Ming-flash-omni-Preview – 蚂蚁集团开源的全模态大模型 蚂蚁集团正式开源千亿参数全模态大模型Ming-flash-omni-Preview。该模型基于稀疏MoE架构,仅激活部分参数即可实现文本、图像、语音、视频的顶尖处理能力,在方言识别、图像编辑等任务中性... AI新闻资讯# 克隆# 图像生成# 方言 1天前0340
DiaMoE-TTS开源:基于IPA与MoE架构,打造低门槛、可扩展的方言语音合成框架 清华大学与巨人网络联合发布首创的多方言语音合成框架DiaMoE-TTS,该模型采用统一的IPA前端与方言感知MoE架构,仅依赖开源数据即可实现媲美工业级的合成效果。项目数据、代码、方法全开源,旨在推动... AI新闻资讯# TTS# 巨人网络# 方言 2天前0330
SoulX-Podcast – Soul AI Lab开源的对话式语音合成模型 SoulX-Podcast是由Soul AI Lab联合西北工业大学、上海交通大学开源的高性能对话式语音合成模型,登顶Hugging Face TTS趋势榜。该模型支持中英文、四川话、粤语等多方言,突... AI新闻资讯# 方言# 语音合成 1天前0260