蛐蛐 (QuQu) – 开源的桌面端语音输入与文本处理工具

蛐蛐 (QuQu)是什么

蛐蛐（QuQu）是为中文用户设计的桌面端语音输入与文本处理工具，是 Wispr Flow 的开源免费替代方案。工具内置阿里巴巴 FunASR Paraformer 模型，支持本地运行，保护用户隐私，同时结合 AI 技术，实现精准识别、智能优化和上下文感知的文本输出。蛐蛐支持编程术语识别，适配多种国内顶尖 AI 模型，具备一键唤醒、实时识别、无缝粘贴等功能，让用户在安静环境下能高效使用语音输入，解放双手，提升工作效率。

蛐蛐 (QuQu)的主要功能

一键唤醒：通过全局快捷键随时随地开始语音输入，方便快捷。
实时识别：本地 FunASR 引擎提供高精度中文语音识别，即使在安静环境下也能保持高准确率。
智能优化：连接 AI 模型，自动润色文本、修正口误和错误表述，提升文本质量。
无缝粘贴：转换完成的文本自动粘贴到当前光标位置，无需手动操作。
上下文感知：支持上下文感知的智能输出，根据上下文自动调整文本内容。
编程支持：支持编程术语识别，适合开发者和效率专家使用。
隐私保护：支持本地运行，数据不上传云端，确保用户隐私安全。
多平台支持：兼容 macOS、Windows 和 Linux 系统。

蛐蛐 (QuQu)的技术原理

语音识别引擎：
- FunASR Paraformer：使用阿里巴巴的 FunASR 模型，特别是 Paraformer-large 模型，提供高精度的中文语音识别。模型能在本地运行，确保数据隐私。
- FSMN-VAD：用在语音活动检测，能准确识别语音段落的开始和结束。
- CT-Transformer：用在文本解码，提高识别的准确性和效率。
AI 模型集成：
- 两段式引擎：结合 ASR（自动语音识别）和 LLM（大型语言模型）技术，实现语音输入的精准识别和智能优化。
- 兼容 OpenAI API：支持多种兼容 OpenAI API 的服务，优先适配国内顶尖模型，如阿里云通义千问、Kimi 等。
前端与桌面端技术栈：
- 前端：使用 React 19、TypeScript、Tailwind CSS、shadcn/ui 和 Vite 构建用户界面，提供流畅的用户体验。
- 桌面端：基于 Electron 构建，确保跨平台兼容性。