当前位置：首页 > news >正文

本地搭建 Whisper 语音识别模型

news 来源：原创 2024/9/20 8:39:04

Whisper 是由 OpenAI 开发的一款强大的语音识别模型，具有出色的多语言处理能力。搭建和使用 Whisper 模型可以帮助您将音频内容转换为文本，这在语音转写、语音助手、字幕生成等应用中都具有广泛的用途。本指南将对如何在本地环境中搭建 Whisper 语音识别模型进行详细的说明，并通过实例演示使您更容易理解和应用。

2. 准备工作

2.1 硬件要求

处理器：最低双核 CPU，推荐四核以上。
内存：至少 8GB RAM，推荐 16GB RAM。
存储：足够的硬盘空间，用于安装软件和存储模型及音频数据，建议至少 10GB 可用空间。
GPU（可选）：如果使用 GPU 加速，建议 NVIDIA GPU，需安装 CUDA。

2.2 软件要求

操作系统：Windows 10 或 Linux（如 Ubuntu）。
Python：建议使用 Python 3.8 以上版本。
Git：用于克隆代码库。
ffmpeg：用于处理音频文件。

3. 安装 Python 环境

如果您的系统尚未安装 Python，可以遵循如下步骤：

Windows

访问 Python 官网下载并安装最新版本的 Python。
在安装过程中，勾选 “Add Python to PATH” 选项。

Linux

在终端中输入以下命令安装 Python：

sudo apt update
sudo apt install python3 python3-pip

4. 下载 Whisper 模型

4.1 了解 Whisper 模型

Whisper 是一个预训练的语音识别模型，支持多种语言，适用于各种音频数据的转录。它生成的文本输出比其他模型更完整，适合用于实时识别和音频转写。

4.2 安装依赖项

使用以下命令安装 Whisper 及其依赖项：

pip install git+https://github.com/openai/whisper.git
pip install torch torchvision torchaudio
pip install ffmpeg-python

安装过程可能需要几分钟，请耐心等待。确保您的网络连接稳定，以便顺利下载所需的库。

5. 使用 Whisper 进行语音识别

5.1 识别音频文件

准备好后，您可以使用 Whisper 对音频文件进行识别。

创建一个新的 Python 文件，命名为 transcribe.py，并在其中添加以下代码：

import whisper# 加载 Whisper 模型
model = whisper.load_model("base") # 可以选择 "tiny", "base", "small", "medium", "large"# 加载和转录音频
def transcribe_audio(file_path):
audio = whisper.load_audio(file_path)
audio = whisper.pad_or_trim(audio)
mel = whisper.log_mel_spectrogram(audio).to(model.device)# 检测语言
_, probs = model.detect_language(mel)
print(f"Detected language: {max(probs, key=probs.get)}")# 转录音频
result = model.transcribe(file_path)
return result["text"]if __name__ == "__main__":
audio_file = "your_audio_file.wav" # 替换为你的音频文件路径
transcription = transcribe_audio(audio_file)
print("Transcription:", transcription)

5.2 实时语音识别

Whisper 还可以用于实时语音识别，您可以使用库 sounddevice 来捕获音频并将其转写。

安装 sounddevice：

pip install sounddevice numpy

在 transcribe.py 中添加实时识别功能：

import sounddevice as sd
import numpy as np
import queue# 设置音频参数
SAMPLE_RATE = 16000
DURATION = 10 # 时间限制q = queue.Queue()def callback(indata, frames, time, status):
q.put(indata.copy())# 实时识别音频
def real_time_transcribe():
with sd.InputStream(samplerate=SAMPLE_RATE, channels=1, callback=callback):
print("Recording...")
sd.sleep(DURATION * 1000) # 记录指定时间
print("Recording stopped.")audio_data = np.concatenate(list(q.queue))
audio = whisper.pad_or_trim(audio_data.flatten())
mel = whisper.log_mel_spectrogram(audio).to(model.device)# 转录音频
result = model.transcribe(mel)return result["text"]if __name__ == "__main__":
transcription = real_time_transcribe()
print("Transcription:", transcription)