ecog
话题找到数量
huggingface/transformers
🤗 Transformers:面向文本、视觉、音频及多模态模型的尖端机器学习模型定义框架,支持推理与训练全流程。
NVIDIA-NeMo/NeMo
专为从事大语言模型、多模态和语音人工智能(自动语音识别与文本转语音)的研究人员和开发者打造的可扩展生成式AI框架
modelscope/FunASR
端到端语音识别基础工具包与开源SOTA预训练模型,支持语音识别、语音活动检测、文本后处理等功能。
alphacep/vosk-api
适用于Android、iOS、树莓派及服务端的离线语音识别API,支持Python、Java、C#和Node.js开发语言。
Anionex/banana-slides
基于nano banana pro🍌的原生AI PPT生成应用,迈向真正的"氛围PPT";支持上传任意模板图片;上传任意素材并智能解析;通过一句话/大纲/页面描述自动生成PPT;口头修改指定区域、一键导出可编辑PPT文件
T8RIN/ImageToolbox
🖼️ 图像工具箱是一款支持高级图像处理的强大应用,提供从基础裁剪绘制到滤镜、OCR及多种图像处理功能的数十种特性
all-contributors/allcontributors.org
✨ 全贡献者机器人网站与文档。认可所有贡献者,而不仅仅是推送代码的人 ✨
Blaizzy/mlx-audio
一个基于苹果MLX框架构建的文本转语音、语音转文本及语音转语音库,可在Apple Silicon芯片上实现高效语音分析。
MahmoudAshraf97/whisper-diarization
基于OpenAI Whisper的说话人日志自动语音识别系统
breezedeus/Pix2Text
一款基于SMALL模型的开源Python3工具,能够识别图像中的版面布局、表格、数学公式以及文本,并将其转换为Markdown格式。作为Mathpix的免费替代方案,它实现了视觉内容到文本表征的无缝转换,并支持80多种语言。