1.简介
whisper是一个离线语音识别软件。可以将视频/音频转为文字。
https://github.com/openai/whisper
https://github.com/m-bain/whisperX
前者是openai原版,后者是在前者基础上修复了一些字幕时间对齐问题。
其实原版已经很不错。
2.安装
2.1 前提
最好安装python3.9,其余版本未测试
2.2 安装whisper/whisperX
先去git clone到自己电脑上,略过
然后安装命令为
pip install -e .
中途如果出现某个模块安装报错,诸如Module not found src 之类的,
解决方法就是去pypi把这个包单独下载下来,然后加入C:\python-3.9.13\python39._pth
我们需要把future,docopt,whisper,whisperx都加入,然后这4个模块都单独安装,命令都是进到该模块目录,执行pip install -e .
./Lib/site-packages
D:/soft/python/future-0.18.3/future-0.18.3
D:/soft/python/docopt-0.6.2
D:\git\opensource\whisperX
D:\git\opensource\whisper
2.3 安装ffmpeg
whisper读取视频/音频用的是ffmpeg,所以需要自行安装ffmpeg。
只需要把ffmpeg加入PATH即可。
ffmpeg可以上https://www.gyan.dev/ffmpeg/builds/下载,
或者如果你用过javacv的话也可以到以下这个目录把它挖出来
C:\Users\{xx}\.javacpp\cache\ffmpeg-5.0-1.5.7-windows-x86_64.jar\org\bytedeco\ffmpeg\windows-x86_64
3.运行测试
language我们指定中文,model可以指定tiny/base/small/medium/large,模型越大解析的准确率越高,当然速度也越慢。
基本在我的电脑上medium就跑不动了,然后用small就足够了,转出来的的文字准确率已经很高了。
whisperx --model tiny --language zh 1.mp3
whisper --model small --language zh 1.mp3
第一次运行会下载模型到以下目录
C:\Users\{xx}\.cache\whisper
C:\Users\{xx}\.cache\huggingface
分享到:
相关推荐
whisper-一个使用python快速实现合成语音的库,离线语音识别,无需联网。 使用方法pip安装好whisper ,执行测试代码 支持多种语言的识别,包括中文英文
Faster-Whisper使用CTranslate2重新实现了OpenAI的Whisper模型,CTranslate2是Transformer模型的快速推理引擎。这种实现比openai/whisper在使用更少内存的情况下达到相同精度的4倍。对于需要高效Transformer模型推理...
开源客服系统服务端Open source customer service system server
cd stream-whisper pip3 install -r requirements.txt 注:libcublas11 是 NVIDIA CUDA Toolkit 的依赖,如果需要使用 CUDA Toolkit,需要安装。 把 .env 文件中的 REDIS_URL 改成自己的 Redis 地址,然后运行 ...
多用户商业无限制版whisper 2.1在线搭建教程
8.1 安装whisper-ctranslate2 8.2 大模型下载 8.3 填坑 坑5:pkg-config could not find libraries 坑6:No module named 'src' 坑7:AssertionError: 3D tensors expect 2 values for padding 坑8:报错OSError: ...
网页多商户客服系统whisper-v2.1.11
whisper-main
用于帮助学习whisper的资源
Chinesewhisper
whisper small model
Laravel开发-whisper 使用雄辩的ORM模型处理外部API。
OpenAI的Whisper自动语音识别(ASR)模型的高性能推理: 无依赖关系的纯C/C++实现 Apple Silicon一流公民-通过ARM NEON、Accelerate框架、Metal和Core ML进行优化 对x86体系结构的AVX内部支持 对POWER体系结构...
Whisper语音识别.rar
模块: fast_whisper pyaudio 博客地址:blog.csdn.net/FL1623863129/article/details/135319194 视频演示:bilibili.com/video/BV1fQ4y1j7wb
适用于影音网站语音合成
Whisper III降噪阀内件pdf,Whisper III降噪阀内件
本人刚做完的毕业设计,语音采样用的是CoolEdit,端点检测采用双门限法,特征参数有MFCC和LPcc, 模型用的是HMM(隐马尔可夫模型)。
whisper的Exe文件
C# vs2019 .net framework编程whispernet demo源码,详情参考博客 blog.csdn.net/FL1623863129/article/details/135236329