蛐蛐 (QuQu) – 开源的桌面端语音输入与文本处理工具

AI笔记1周前更新 mx131
39 0 0

蛐蛐 (QuQu)是什么

蛐蛐(QuQu)是为中文用户设计的桌面端语音输入与文本处理工具,是 Wispr Flow 的开源免费替代方案。工具内置阿里巴巴 FunASR Paraformer 模型,支持本地运行,保护用户隐私,同时结合 AI 技术,实现精准识别、智能优化和上下文感知的文本输出。蛐蛐支持编程术语识别,适配多种国内顶尖 AI 模型,具备一键唤醒、实时识别、无缝粘贴等功能,让用户在安静环境下能高效使用语音输入,解放双手,提升工作效率。

蛐蛐 (QuQu) – 开源的桌面端语音输入与文本处理工具

蛐蛐 (QuQu)的主要功能

  • 一键唤醒:通过全局快捷键随时随地开始语音输入,方便快捷。
  • 实时识别:本地 FunASR 引擎提供高精度中文语音识别,即使在安静环境下也能保持高准确率。
  • 智能优化:连接 AI 模型,自动润色文本、修正口误和错误表述,提升文本质量。
  • 无缝粘贴:转换完成的文本自动粘贴到当前光标位置,无需手动操作。
  • 上下文感知:支持上下文感知的智能输出,根据上下文自动调整文本内容。
  • 编程支持:支持编程术语识别,适合开发者和效率专家使用。
  • 隐私保护:支持本地运行,数据不上传云端,确保用户隐私安全。
  • 多平台支持:兼容 macOS、Windows 和 Linux 系统。

蛐蛐 (QuQu)的技术原理

  • 语音识别引擎
    • FunASR Paraformer:使用阿里巴巴的 FunASR 模型,特别是 Paraformer-large 模型,提供高精度的中文语音识别。模型能在本地运行,确保数据隐私。
    • FSMN-VAD:用在语音活动检测,能准确识别语音段落的开始和结束。
    • CT-Transformer:用在文本解码,提高识别的准确性和效率。
  • AI 模型集成
    • 两段式引擎:结合 ASR(自动语音识别)和 LLM(大型语言模型)技术,实现语音输入的精准识别和智能优化。
    • 兼容 OpenAI API:支持多种兼容 OpenAI API 的服务,优先适配国内顶尖模型,如阿里云通义千问、Kimi 等。
  • 前端与桌面端技术栈
    • 前端:使用 React 19、TypeScript、Tailwind CSS、shadcn/ui 和 Vite 构建用户界面,提供流畅的用户体验。
    • 桌面端:基于 Electron 构建,确保跨平台兼容性。

蛐蛐 (QuQu)的项目地址

  • GitHub仓库:https://github.com/yan5xu/ququ

蛐蛐 (QuQu)的应用场景

  • 写作与内容创作:快速将语音转化为文字,提升写作效率,适合作家、博主、记者等需要大量文字输入的场景。
  • 编程辅助:支持编程术语识别,帮助开发者快速输入代码,减少键盘输入,提升编程效率。
  • 会议记录:实时语音转文字,自动润色和总结,方便会议记录和会议纪要的整理。
  • 学习与笔记:在课堂或讲座中,快速记录重点内容,减轻手写笔记的负担。
  • 办公文档处理:在安静的办公环境中,通过语音输入完成文档撰写和编辑,提高工作效率。
© 版权声明

相关文章

暂无评论

none
暂无评论...