语音工具

语音输入、语音识别、AI 配音工具总览与选型建议。

AI 语音工具分为三大类：语音输入（ASR）、语音合成（TTS）、语音助手。每个分类解决不同的问题。

如果你还没有用过语音输入，我建议从它开始。这是日常开发中提升效率最直接的方式。

语音输入 (ASR)

语音输入是把说话转成文字，用在写代码注释、打文档初稿、记录想法等场景。

详见 AI 语音输入工具对比，那里有完整的 Mac 平台工具横评。

这里简单说我的结论：

工具	场景	推荐理由
微信语音输入	日常输入	免费、无缝、识别准，每个 Mac 都有
闪电说	本地/隐私优先	免费、本地模型、速度快
豆包语音输入法	多人口语场景	识别率极高，支持场景识别
Whisper	开发者集成	开源、可自部署、准确率高
Deepgram	专业转写	云端 API、速度快、支持实时流式

语音合成 (TTS)

TTS 把文字转成语音，用在配音、有声内容、产品语音提示等场景。

工具	特点	适合
ElevenLabs	音质最好、多语言	专业配音、有声书
MiniMax Speech	中文效果佳	中文内容、短视频配音
豆包语音合成	免费、中文自然	入门使用、个人项目
OpenAI TTS	API 集成方便	开发者集成

选 TTS 工具时，先确认中文效果。很多工具的英文表现很好，中文就变味了。MiniMax 和豆包在中文上反而更稳定。

语音助手

语音助手把 ASR + LLM + TTS 串起来，实现对话式交互。适合做语音笔记、语音问答等场景。

目前还在早期阶段，值得关注的产品：

Cursor Talk：在 Cursor 里用语音和 AI 对话编程
Speechnotes：语音速记工具
Vocol：会议语音转写 + AI 总结

工具对比速览

场景	首选	预算方案	开发集成
日常语音输入	微信 / 闪电说	—	Whisper
短视频配音	MiniMax	豆包语音合成	ElevenLabs API
会议转写	Deepgram	—	Whisper
语音助手	—	—	自建 ASR+LLM+TTS 管线

我的建议

如果你只想做一件事：把微信语音输入用起来。它不需要任何配置，不花一分钱，每天省下的打字时间加起来很可观。

如果你对隐私有要求，用闪电说。本地模型跑在 Mac 的 NPU 上，速度和准确度都不错。

配音的话，日常项目先用 MiniMax 免费额度，效果够用。等到专门做音频产品再考虑 ElevenLabs。

下一步

想知道哪个语音输入工具最适合你？看 AI 语音输入工具对比
想在项目里集成语音功能？先看 Whisper 或 Deepgram 的 API 文档

AI 语音输入工具对比

基于我自己的使用体验，整理了 Mac 平台几款主流的 AI 语音输入工具。

核心对比表

工具名称	推荐指数	模式	费用	评价与槽点
微信语音输入	⭐⭐⭐⭐⭐	联网	免费	目前体验最好。集成在微信电脑端，不需要额外下载。识别极准，流式输出，体验顺滑，而且每个人电脑上都有微信。
闪电说	⭐⭐⭐⭐⭐	本地 + 云端	免费	本地模型首选。支持 Mac 本地模型（完全可用本机 NPU/GPU 跑），速度快且保护隐私。
豆包语音输入法	⭐⭐⭐⭐	联网	免费	字节跳动的语音技术很强，识别率高，支持多人口语场景识别。但需要单独装客户端。
西瓜说	⭐⭐⭐	本地	免费	本地模型，速度快，保护隐私，支持自定义 AI 指令。独立开发者作品，还在早期阶段
Wispr Flow	⭐⭐⭐	本地/云端	付费	体验不错，也是本地识别为主，但价格较贵（订阅制）。
AutoGLM	⭐⭐	联网	免费	智谱 AI 出品。目前版本 Bug 较多，纯联网模式，经常出现识别失败的情况。
Typeless	⭐⭐	-	付费	费用较高，且主观使用感觉不如同类产品顺手。

详细评价

1. 微信语音输入（首选）

微信电脑端自带的语音输入，是我现在最常用的。不需要另外装任何东西，每个人电脑上本来就有微信。设置一个快捷键，在任何地方都能直接用语音输入，识别很准，而且是流式输出——你一边说它一边出字，基本不用等。

优点：零安装，识别准，流式体验顺滑，完全免费
缺点：没有智能润色、智能指令这类进阶功能

2. 闪电说（本地模型首选）

如果你更在意隐私或者网络不稳定，闪电说是目前 Mac 端最好的本地语音输入工具。

优点：完全免费，支持本地模型（离线可用，速度极快），在语音输入这个细分领域打磨得很深。
适用场景：Mac 用户，追求极致速度和隐私，或网络环境不稳定的情况。

3. 豆包语音输入法

字节跳动的语音技术这几年确实做起来了。识别率极高，长文本输入也不掉链子。最厉害的是它能分辨多人口语场景——客厅里几个人同时在说话，它能识别出谁是谁，只回答你的指令。

优点：识别极准，免费，支持多人口语场景识别
缺点：需要单独装客户端，手机版还在内测中

4. 西瓜说

评价：独立开发者作品，本地模型方案值得关注。
缺点：还在早期推广阶段，功能细节和稳定性有待完善。

5. Wispr Flow

评价：产品做得不错，也是主打 Flow（流式）体验。
缺点：价格太贵（相比免费的闪电说或豆包），性价比不高。

6. AutoGLM（智谱）

评价：智谱 AI 的产品（原 M 键/GLM 输入法）。
缺点：稳定性堪忧，联网识别模式下经常失败，Bug 较多，目前不推荐作为主力工具。

7. Typeless

评价：评论区也经常有人推，功能确实可以。
缺点：费用较高（订阅制），微信和闪电说免费已经够用了。

研究工具

AI 搜索与研究工具对比：Perplexity、NotebookLM、Deep Research，按研究深度选工具。

知识管理

AI 驱动的知识管理工具与工作流：Obsidian、Notion 的对比与选型建议。

On this page

语音输入 (ASR)语音合成 (TTS)语音助手工具对比速览我的建议下一步 AI 语音输入工具对比核心对比表详细评价 1. 微信语音输入（首选）2. 闪电说（本地模型首选）3. 豆包语音输入法 4. 西瓜说 5. Wispr Flow 6. AutoGLM（智谱）7. Typeless