❤️❤️❤️❤️❤️❤️ 我们已经正式推出微信小程序,在微信中搜索 TrendForge Pro 即可使用小程序,如果使用 Telegram 请搜索 trendforge_tg ❤️❤️❤️❤️❤️❤️
5分钟快速开始:whisper.cpp
OpenAI Whisper模型的C/C++移植版本,用于高性能语音识别推理。
环境要求
支持的操作系统
运行环境
所需工具
音频文件转换(可选,用于非WAV文件)
操作步骤
克隆仓库
下载whisper.cpp源代码到本地。
git clone https://github.com/ggml-org/whisper.cpp
预期结果::创建whisper.cpp目录并下载文件。
确保网络连接正常。
进入目录
切换到项目目录。
cd whisper.cpp
预期结果::当前目录变为whisper.cpp。
在终端中执行。
下载模型
下载一个预转换的ggml格式Whisper模型。
./models/download-ggml-model.sh base.en
预期结果::下载models/ggml-base.en.bin文件。
模型大小约142MB,确保有足够磁盘空间。
构建项目
编译whisper-cli示例程序。
make
预期结果::成功编译,生成build/bin/whisper-cli可执行文件。
如果失败,检查CMake和make是否安装。
运行推理
使用示例音频文件测试语音识别。
./build/bin/whisper-cli -m models/ggml-base.en.bin -f samples/jfk.wav
预期结果::输出转录文本,如'And so my fellow Americans ask not what your country can do for you ask what you can do for your country.'
确保音频文件为16位WAV格式;如需其他文件,用ffmpeg转换。
验证成功
成功运行whisper-cli并看到转录输出。
快速提示
快速演示:运行'make base.en'自动下载模型并测试所有样本。
查看帮助:运行'./build/bin/whisper-cli -h'获取详细用法。
支持GPU:如需CUDA或Metal加速,参考README构建选项。
常见问题
构建失败,提示CMake错误。
确保已安装CMake 3.10+和make工具。
运行whisper-cli时音频文件无法识别。
使用ffmpeg转换音频为16位WAV:'ffmpeg -i input.mp3 -ar 16000 -ac 1 -c:a pcm_s16le output.wav'。
模型下载慢或失败。
检查网络,或手动从GitHub releases下载模型文件到models/目录。
下一步
尝试其他模型
下载tiny、small等模型测试不同精度和速度。
集成到应用
使用C-style API将whisper.cpp嵌入到自定义项目中。
探索高级功能
参考README了解量化、Core ML、OpenVINO等优化选项。
相关项目推荐
tensorflow/tensorflow
面向所有人的开源机器学习框架
facebook/react-native
一个使用React构建原生应用程序的框架
electron/electron
使用 JavaScript、HTML 和 CSS 构建跨平台桌面应用程序
ggml-org/llama.cpp
使用 C/C++ 实现的大语言模型推理框架
godotengine/godot
Godot引擎——跨平台2D与3D游戏引擎
microsoft/terminal
全新Windows Terminal与经典Windows控制台主机,集于一处!