ggml-org/whisper.cpp - 快速上手

❤️❤️❤️❤️❤️❤️ 我们已经正式推出微信小程序，在微信中搜索 TrendForge Pro 即可使用小程序，如果使用 Telegram 请搜索 trendforge_tg ❤️❤️❤️❤️❤️❤️

项目介绍快速开始学习路径项目截图 2 贡献者 443 增长趋势 Commit 历史代码统计生态关系项目时间线项目竞品依赖分析上榜历史

5分钟快速开始：whisper.cpp

OpenAI Whisper模型的C/C++移植版本，用于高性能语音识别推理。

环境要求

支持的操作系统

macOS Windows Linux

运行环境

Git 最新必需

CMake 3.10+ 必需

make 最新必需

所需工具

ffmpeg

音频文件转换（可选，用于非WAV文件）

操作步骤

克隆仓库

下载whisper.cpp源代码到本地。

克隆仓库

git clone https://github.com/ggml-org/whisper.cpp

预期结果：：创建whisper.cpp目录并下载文件。

确保网络连接正常。

进入目录

切换到项目目录。

进入项目根目录

cd whisper.cpp

预期结果：：当前目录变为whisper.cpp。

在终端中执行。

下载模型

下载一个预转换的ggml格式Whisper模型。

下载base.en模型

./models/download-ggml-model.sh base.en

预期结果：：下载models/ggml-base.en.bin文件。

模型大小约142MB，确保有足够磁盘空间。

构建项目

编译whisper-cli示例程序。

使用默认配置构建

make

预期结果：：成功编译，生成build/bin/whisper-cli可执行文件。

如果失败，检查CMake和make是否安装。

运行推理

使用示例音频文件测试语音识别。

转录JFK音频样本

./build/bin/whisper-cli -m models/ggml-base.en.bin -f samples/jfk.wav

预期结果：：输出转录文本，如'And so my fellow Americans ask not what your country can do for you ask what you can do for your country.'

确保音频文件为16位WAV格式；如需其他文件，用ffmpeg转换。

验证成功

成功运行whisper-cli并看到转录输出。

命令执行无错误

输出包含英文文本

程序正常退出

快速提示

快捷方式

快速演示：运行'make base.en'自动下载模型并测试所有样本。

文档

查看帮助：运行'./build/bin/whisper-cli -h'获取详细用法。

性能

支持GPU：如需CUDA或Metal加速，参考README构建选项。

常见问题

构建失败，提示CMake错误。

确保已安装CMake 3.10+和make工具。

运行whisper-cli时音频文件无法识别。

使用ffmpeg转换音频为16位WAV：'ffmpeg -i input.mp3 -ar 16000 -ac 1 -c:a pcm_s16le output.wav'。

模型下载慢或失败。

检查网络，或手动从GitHub releases下载模型文件到models/目录。

下一步

尝试其他模型

下载tiny、small等模型测试不同精度和速度。

集成到应用

使用C-style API将whisper.cpp嵌入到自定义项目中。

探索高级功能

参考README了解量化、Core ML、OpenVINO等优化选项。