❤️❤️❤️❤️❤️❤️ 我们已经正式推出微信小程序,在微信中搜索 TrendForge Pro 即可使用小程序,如果使用 Telegram 请搜索 trendforge_tg ❤️❤️❤️❤️❤️❤️

5分钟快速开始:whisper.cpp

OpenAI Whisper模型的C/C++移植版本,用于高性能语音识别推理。

环境要求

支持的操作系统

macOS Windows Linux

运行环境

Git 最新 必需
CMake 3.10+ 必需
make 最新 必需

所需工具

ffmpeg

音频文件转换(可选,用于非WAV文件)

操作步骤

1

克隆仓库

下载whisper.cpp源代码到本地。

克隆仓库
git clone https://github.com/ggml-org/whisper.cpp

预期结果::创建whisper.cpp目录并下载文件。

确保网络连接正常。

2

进入目录

切换到项目目录。

进入项目根目录
cd whisper.cpp

预期结果::当前目录变为whisper.cpp。

在终端中执行。

3

下载模型

下载一个预转换的ggml格式Whisper模型。

下载base.en模型
./models/download-ggml-model.sh base.en

预期结果::下载models/ggml-base.en.bin文件。

模型大小约142MB,确保有足够磁盘空间。

4

构建项目

编译whisper-cli示例程序。

使用默认配置构建
make

预期结果::成功编译,生成build/bin/whisper-cli可执行文件。

如果失败,检查CMake和make是否安装。

5

运行推理

使用示例音频文件测试语音识别。

转录JFK音频样本
./build/bin/whisper-cli -m models/ggml-base.en.bin -f samples/jfk.wav

预期结果::输出转录文本,如'And so my fellow Americans ask not what your country can do for you ask what you can do for your country.'

确保音频文件为16位WAV格式;如需其他文件,用ffmpeg转换。

验证成功

成功运行whisper-cli并看到转录输出。

命令执行无错误
输出包含英文文本
程序正常退出

快速提示

快捷方式

快速演示:运行'make base.en'自动下载模型并测试所有样本。

文档

查看帮助:运行'./build/bin/whisper-cli -h'获取详细用法。

性能

支持GPU:如需CUDA或Metal加速,参考README构建选项。

常见问题

1

构建失败,提示CMake错误。

确保已安装CMake 3.10+和make工具。

2

运行whisper-cli时音频文件无法识别。

使用ffmpeg转换音频为16位WAV:'ffmpeg -i input.mp3 -ar 16000 -ac 1 -c:a pcm_s16le output.wav'。

3

模型下载慢或失败。

检查网络,或手动从GitHub releases下载模型文件到models/目录。

下一步

尝试其他模型

下载tiny、small等模型测试不同精度和速度。

集成到应用

使用C-style API将whisper.cpp嵌入到自定义项目中。

探索高级功能

参考README了解量化、Core ML、OpenVINO等优化选项。

助手