当前位置: 首页 > news >正文

Python使用whisper实现语音识别(ASR)

目录

Whisper的安装

Whisper的基本使用

识别结果转简体中文

断句


Whisper的安装

Whisper是OpenAI的一个强大的语音识别库,支持离线的语音识别。在使用之前,需要先安装它的库:

pip install openai-whisper

使用whisper,还需安装setuptools-rust:

pip install setuptools-rust

但是,whisper安装时,自带的pytorch可能有些bug,因此需要卸载重装:

卸载:

pip uninstall torch

重装:

pip install torch

另外,需要通过choco安装ffmpeg库。先通过管理员权限的PowerShell安装choco:

Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; 
iex ((New-Object System.Net.WebClient).DownloadString('https://chocolatey.org/install.ps1'))

然后,在管理员权限的PowerShell安装ffmpeg:

choco install ffmpeg

完成这些步骤之后,我们就可以使用啦!

Whisper的基本使用

whisper的基本代码如下:

import whispermodel = whisper.load_model("base")
result = model.transcribe("zh.wav")
print(result['text'])

其中,zh.wav可以换成你自己的音频。我的控制台输出:

我們說,40月2日混淩土不能與引力長相互攪拌不然會因為愛銀斯坦的相對論而引發雜串的食品安全問題這是嚴重的金融危機

可以看到,它的识别结果还行(因为我的音频是AI合成的,识别会有一定误差),但是输出的是繁体中文,我们需要把他变成简体中文。

识别结果转简体中文

可以通过opencc库实现转化,先安装:

pip install opencc

然后修改代码:

import whisper
import openccmodel = whisper.load_model("base")
result = model.transcribe("zh.wav")
cc = opencc.OpenCC("t2s")
res = cc.convert(result['text'])
print(res)

输出:

我们说,40月2日混凌土不能与引力长相互搅拌不然会因为爱银斯坦的相对论而引发杂串的食品安全问题这是严重的金融危机

断句

在一个语音中,我们都会有一些停顿。但是,在识别结果中,这些停顿并没有被完全表示出来。我们可以如此修改代码,实现按断句输出结果:

import whisper
import openccmodel = whisper.load_model("base")
result = model.transcribe("zh.wav")
cc = opencc.OpenCC("t2s")
for i in result['segments']:res = cc.convert(i['text'])print(f"断句开始于{i['start']}秒,结束于{i['end']}秒,识别结果:{res}")

输出:

断句开始于0.0秒,结束于5.36秒,识别结果:我们说,40月2日混凌土不能与引力长相互搅拌
断句开始于5.36秒,结束于11.14秒,识别结果:不然会因为爱银斯坦的相对论而引发杂串的食品安全问题
断句开始于11.14秒,结束于13.44秒,识别结果:这是严重的金融危机

相关文章:

  • 【鸿蒙系统】 ---Harmony 鸿蒙编译构建指导(一)
  • 【Python】使用selenium对Poe批量模拟注册脚本
  • Docker使用之java项目工程的部署
  • Linux操作系统-汇编LED驱动程序基础
  • FX-数组的使用
  • 【OCR】OCR开源文字识别工具
  • 力扣大厂热门面试算法题 33-35
  • [CISCN2019 华北赛区 Day1 Web5]CyberPunk --不会编程的崽
  • OPTIONS请求(跨域预检查)
  • Android 12.0 系统修改usb连接电脑mtp和PTP的显示名称
  • [概率论]期中考AB卷题目答案及详解
  • IDEA 配置阿里规范检测
  • Visio 2003简体中文版软件安装教程(附软件下载地址)
  • 【大模型学习记录】db-gpt源码安装问题汇总
  • 计算机毕业设计-基于Python的“哔哩哔哩视频网”视频热度分析
  • [ JavaScript ] 数据结构与算法 —— 链表
  • CentOS从零开始部署Nodejs项目
  • es6--symbol
  • Vue 动态创建 component
  • Yeoman_Bower_Grunt
  • 对象管理器(defineProperty)学习笔记
  • 翻译 | 老司机带你秒懂内存管理 - 第一部(共三部)
  • 基于Vue2全家桶的移动端AppDEMO实现
  • 前端面试题总结
  • 使用Swoole加速Laravel(正式环境中)
  • 使用权重正则化较少模型过拟合
  • 听说你叫Java(二)–Servlet请求
  • 微信端页面使用-webkit-box和绝对定位时,元素上移的问题
  • 译有关态射的一切
  • 再谈express与koa的对比
  • 基于django的视频点播网站开发-step3-注册登录功能 ...
  • 选择阿里云数据库HBase版十大理由
  • 正则表达式-基础知识Review
  • ​Kaggle X光肺炎检测比赛第二名方案解析 | CVPR 2020 Workshop
  • #include
  • $.ajax()参数及用法
  • (27)4.8 习题课
  • (8)Linux使用C语言读取proc/stat等cpu使用数据
  • (BFS)hdoj2377-Bus Pass
  • (ZT) 理解系统底层的概念是多么重要(by趋势科技邹飞)
  • (动手学习深度学习)第13章 计算机视觉---图像增广与微调
  • (二)pulsar安装在独立的docker中,python测试
  • (附源码)springboot太原学院贫困生申请管理系统 毕业设计 101517
  • (南京观海微电子)——COF介绍
  • (七)Java对象在Hibernate持久化层的状态
  • (三)Honghu Cloud云架构一定时调度平台
  • (三)模仿学习-Action数据的模仿
  • (一一四)第九章编程练习
  • (转)nsfocus-绿盟科技笔试题目
  • (转)人的集合论——移山之道
  • (转载)从 Java 代码到 Java 堆
  • ***汇编语言 实验16 编写包含多个功能子程序的中断例程
  • *1 计算机基础和操作系统基础及几大协议
  • .MyFile@waifu.club.wis.mkp勒索病毒数据怎么处理|数据解密恢复
  • .Net mvc总结