`
xpenxpen
  • 浏览: 703440 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

whisper安装试用

阅读更多
1.简介
whisper是一个离线语音识别软件。可以将视频/音频转为文字。
https://github.com/openai/whisper
https://github.com/m-bain/whisperX
前者是openai原版,后者是在前者基础上修复了一些字幕时间对齐问题。
其实原版已经很不错。

2.安装
2.1 前提
最好安装python3.9,其余版本未测试

2.2 安装whisper/whisperX
先去git clone到自己电脑上,略过
然后安装命令为
pip install -e .

中途如果出现某个模块安装报错,诸如Module not found src 之类的,
解决方法就是去pypi把这个包单独下载下来,然后加入C:\python-3.9.13\python39._pth
我们需要把future,docopt,whisper,whisperx都加入,然后这4个模块都单独安装,命令都是进到该模块目录,执行pip install -e .
./Lib/site-packages
D:/soft/python/future-0.18.3/future-0.18.3
D:/soft/python/docopt-0.6.2
D:\git\opensource\whisperX
D:\git\opensource\whisper


2.3 安装ffmpeg
whisper读取视频/音频用的是ffmpeg,所以需要自行安装ffmpeg。
只需要把ffmpeg加入PATH即可。
ffmpeg可以上https://www.gyan.dev/ffmpeg/builds/下载,
或者如果你用过javacv的话也可以到以下这个目录把它挖出来
C:\Users\{xx}\.javacpp\cache\ffmpeg-5.0-1.5.7-windows-x86_64.jar\org\bytedeco\ffmpeg\windows-x86_64

3.运行测试
language我们指定中文,model可以指定tiny/base/small/medium/large,模型越大解析的准确率越高,当然速度也越慢。
基本在我的电脑上medium就跑不动了,然后用small就足够了,转出来的的文字准确率已经很高了。

whisperx --model tiny --language zh 1.mp3
whisper --model small --language zh 1.mp3


第一次运行会下载模型到以下目录
C:\Users\{xx}\.cache\whisper
C:\Users\{xx}\.cache\huggingface
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics