当前位置:   article > 正文

【Python】本地版 Whisper 自动转录器(附源码网址)

whisper转录 python

目   录

  • 一、实时自动语音转录器简介             

  • 二、开源Whisper实时转录器             

  • 三、pyinstaller 打包发布exe应用程序

  • 四、修改版源代码                             


一、实时自动语音转录器简介

实时自动语音转录器是一种能够自动将语音信号转换为文字的应用程序。它通常具有以下几个主要功能:1. 语音检测与采集实时监测麦克风或其他输入信号,检测并录制用户的语音输入。要求具有较低延迟,以进行实时转录。2. 语音识别与转录使用语音识别技术对录制的语音信号进行识别与转录,将语音转换为文本。需要选择合适的语音识别模型,如神经网络模型等。3. 自动修正分析语音识别的结果,自动检测并修正一些常见错误,如将数字“13”识别为“30”等情况。这需要制定一定的修正规则和算法。4. 格式化与输出对转录结果进行必要的格式化,如加工标点符号、大写等,然后将结果实时显示给用户或导出为文本文档等格式。5. 操作交互提供一定的交互操作,如暂停/继续转录、修改转录结果、选择语音识别模型等。可以通过图形界面实现交互,也可以通过自定义语音指令等方式实现。6. 支持多种语言理想的实时自动语音转录器应支持多种常用语言,以满足不同用户的需求。这需要准备不同语言的语音识别模型与修正规则。总体来说,实时自动语音转录器是一款功能较为复杂的应用程序。要想开发出一款实用的自动转录器,需要具备一定的语音识别与人工智能技术,并投入大量时间用于测试、修订与改进。但随着语音识别技术的不断发展,以及许多开源工具的出现,开发一款基本的自动语音转录器已经变得更加简单和可行。有一定技术基础的开发者,都可以尝试完成这样一个项目,以增进自己的技能与丰富项目经验。

二、开源Whisper实时转录器

fee61970916f1088ba53c34179bee0f5.png

主界面

视频演示(播放youtube视频,实时语音转录)

三、pyinstaller 打包发布exe应用程序

3e89a9b0c81b975fdbe28f2d913dd3a8.png

claude指导

  1. pip install PyInstaller
  2. pyinstaller WAT.py

打包完成,会在dist文件夹下有个WAT的文件夹,所有程序都在这里。

1697e08617fe05a5c0f39f02971a4dc1.png

记得把图标 icon.ico手动拷贝进去。 运行时,提示缺少whisper文件夹下的内容(可能是因为没有添加 PYTHONPATH 环境变量导致),检查发现WAT文件夹下没有whisper文件夹,于是找到下面路径

C:\Users\cxy\AppData\Local\Programs\Python\Python310\Lib\site-packages\whisper

e349db2bbe9e1070cba119661b73ce30.png

将whisper文件夹拷贝到WAT目录下。运行WAT.exe 即可。

注:设置全局变量 用于下载和读取 语音识别模型 (medium.pt)。

XDG_CACHE_HOME=V:\learn\AI\SpeechToText\WhisperAutoTranscriber-main\models

四、修改版源代码

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号