早上连发10条语音，AI沉默了

一次真实的 Apple Silicon 性能优化之旅

⏱️ 阅读时间 8 分钟 · mlx_whisper × OpenClaw × M4 Mac

6.4GB → 1.8GB

内存占用降低 72%

14s → 5.3s

转录速度提升 2.6 倍

13×

实时转录倍率

8/8

测试轮次全通过

故事背景

那是一个普通的早晨。早上7点，我一边喝咖啡一边对 AI 连续发出任务语音：

"今天上午先把 Instagram 内容发出去……对了还有那个预约单……顺便帮我查一下……"

然后：AI 沉默了 🤫

症状：AI 助手突然"失联"

现象 01

Telegram 不回复消息

现象 02

API 超时 10 分钟

现象 03

重启后恢复

现象 04

随机发生，难以复现

排查过程

Step 01

检查进程：进程存活，排除崩溃可能

Step 02

检查日志：发现 embedded run timeout: timeoutMs=600000

Claude API 挂起了整整 10 分钟！

Step 03

关键发现：每次卡死都在收到语音消息之后

Step 04

内存监控：原版 Whisper CLI 每次吃掉 6.4GB 内存

💡 就像同时开了 20 个 Chrome，每个都在播放 4K 视频

真相大白

根因定位：

ユキ (6.4GB) + ナツ (6.4GB) = 12.8GB 内存峰值

24GB 内存压力爆炸 → 连锁崩溃 💥

解决方案：mlx_whisper

MLX 是什么？

Apple 专为 M 系列芯片打造的机器学习框架，充分利用 Neural Engine，让性能成倍增长。

                # 安装
pip install mlx-whisper

# 使用
mlx_whisper --model mlx-community/whisper-large-v3-turbo audio.mp3
            

指标	原版 Whisper	mlx_whisper
内存占用	6.4 GB	1.8 GB
转录速度	14 秒	5.3 秒
双实例内存	12.8 GB ❌	3.6 GB ✅

8 轮实测全通过

日语

117秒音频 → 8.9秒转录 (13.2× 实时) · 内存 1.8GB ✅

中文

89秒音频 → 8.0秒转录 (11.1× 实时) · 内存 1.8GB ✅

英文

109秒音频 → 7.9秒转录 (13.8× 实时) · 内存 1.8GB ✅

并发双路

ユキ + ナツ同时转录 · 总内存 3.6GB · 无崩溃 ✅

🎯 核心结论

Apple Silicon 不是不能用本地模型，而是要用 MLX 优化版本。

原版 PyTorch 通过 Rosetta 转译，内存爆炸；MLX 原生调用 Neural Engine，性能成倍增长。

下次早上发语音，AI 会很快回复你 ⚡️