当前位置: 首页 > news >正文

达摩研究院Paraformer-large模型已支持windows

简介

FunASR是一个基础语音识别工具包,提供多种功能,包括语音识别(ASR)、语音端点检测(VAD)、标点恢复、语言模型、说话人验证、说话人分离和多人对话语音识别等。FunASR提供了便捷的脚本和教程,支持预训练好的模型的推理与微调。FunASR开源了大量在工业数据上预训练模型,用户可以在模型许可协议下自由使用、复制、修改和分享FunASR模型。

代表性的模型Paraformer非自回归端到端语音识别模型具有高精度、高效率、便捷部署的优点,支持快速构建语音识别服务。最重要的是,支持标点符号识别、低语音识别、音频-视觉语音识别等功能,也就是说,它不仅可以实现语音转写,还能在转写后进行标注。

Paraformer是达摩院语音团队提出的一种高效的非自回归端到端语音识别框架。本项目为Paraformer中文通用语音识别模型,采用工业级数万小时的标注音频进行模型训练,保证了模型的通用识别效果。模型可以被应用于语音输入法、语音导航、智能会议纪要等场景。

c40457cb789c69bc545033a29f112362.jpeg

主要核心

1.Predictor 模块:基于 Continuous integrate-and-fire (CIF) 的 预测器 (Predictor) 来抽取目标文字对应的声学特征向量,可以更加准确的预测语音中目标文字个数。2.Sampler:通过采样,将声学特征向量与目标文字向量变换成含有语义信息的特征向量,配合双向的 Decoder 来增强模型对于上下文的建模能力。3.基于负样本采样的 MWER 训练准则。

在本地机器中开发FunASR框架安装

· 安装FunASR和ModelScope,pip3 install -U modelscopegit clone https://github.com/alibaba/FunASR.git && cd FunASRpip3 install -e ./

基于FunASR进行推理

推理支持音频格式如下:

  • wav文件路径,例如:data/test/audios/asr_example.wav
  • pcm文件路径,例如:data/test/audios/asr_example.pcm
  • wav文件url,例如:https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_zh.wav
  •  wav二进制数据,格式bytes,例如:用户直接从文件里读出bytes数据或者是麦克风录出bytes数据。
  • 已解析的audio音频,例如:audio, rate = soundfile.read("asr_example_zh.wav"),类型为numpy.ndarray或者torch.Tensor。
  • wav.scp文件,需符合如下要求:cat wav.scpasr_example1 data/test/audios/asr_example1.wavasr_example2data/test/audios/asr_example2.wav

识别结果输出路径结构如下:

tree output_dir/output_dir/└── 1best_recog├── rtf├── score└── text1 directory, 3 filesrtf:计算过程耗时统计score:识别路径得分text:语音识别结果文件接下来会以私有数据集为例,介绍如何在FunASR框架中使用Paraformer-large进行推理以及微调。cd egs_modelscope/paraformer/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorchpython demo.py

基于FunASR进行微调

cd egs_modelscope/paraformer/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorchpython finetune.py若修改输出路径、数据路径、采样率、batch_size等配置及使用多卡训练,可参照在Notebook开发中私有数据微调部分的代码,修改finetune.py文件中配置。

使用方式以及适用范围

项目地址https://github.com/alibaba-damo-academy/FunASR

运行范围支持Linux-x86_64、Mac和Windows运行。

使用方式

直接推理:可以直接对输入音频进行解码,输出目标文字。

微调:加载训练好的模型,采用私有或者开源数据进行模型训练。

相关文章:

  • mysql服务多实例运行
  • HCIP-2
  • 访问学者申请需要注意什么?
  • 拼多多根据ID取商品详情原数据 API 实现实时数据获取的完整指南
  • 奥伦德光电耦合器5G通信领域及其相关领域推荐
  • 【动态规划】20子数组系列_环形子数组的最大和_C++(medium)
  • Linux部署WBO在线白板
  • create_metrology_model
  • MYSQL篇--sql优化高频面试题
  • 数据库系统原理总结之——数据库编程
  • 贝叶斯优化的基本流程
  • 做一个个人博客第一步该怎么做?
  • GPT-4:人工智能的新纪元与未来的无限可能
  • 002 Golang-channel-practice
  • 【正点原子STM32连载】 第二十九章 睡眠模式实验 摘自【正点原子】APM32E103最小系统板使用指南
  • 【comparator, comparable】小总结
  • 2017前端实习生面试总结
  • 30秒的PHP代码片段(1)数组 - Array
  • avalon2.2的VM生成过程
  • CentOS 7 修改主机名
  • django开发-定时任务的使用
  • ES学习笔记(12)--Symbol
  • extract-text-webpack-plugin用法
  • Java 内存分配及垃圾回收机制初探
  • PyCharm搭建GO开发环境(GO语言学习第1课)
  • Python_OOP
  • 笨办法学C 练习34:动态数组
  • 从0到1:PostCSS 插件开发最佳实践
  • 基于Javascript, Springboot的管理系统报表查询页面代码设计
  • 前端性能优化--懒加载和预加载
  • 前言-如何学习区块链
  • 使用 Docker 部署 Spring Boot项目
  • FaaS 的简单实践
  • kubernetes资源对象--ingress
  • 分布式关系型数据库服务 DRDS 支持显示的 Prepare 及逻辑库锁功能等多项能力 ...
  • 智能情侣枕Pillow Talk,倾听彼此的心跳
  • # 手柄编程_北通阿修罗3动手评:一款兼具功能、操控性的电竞手柄
  • #LLM入门|Prompt#1.8_聊天机器人_Chatbot
  • (1)(1.9) MSP (version 4.2)
  • (13):Silverlight 2 数据与通信之WebRequest
  • (3)(3.5) 遥测无线电区域条例
  • (6)STL算法之转换
  • (附源码)spring boot火车票售卖系统 毕业设计 211004
  • (附源码)springboot 校园学生兼职系统 毕业设计 742122
  • (附源码)springboot建达集团公司平台 毕业设计 141538
  • (过滤器)Filter和(监听器)listener
  • (黑客游戏)HackTheGame1.21 过关攻略
  • (十六)串口UART
  • (转)nsfocus-绿盟科技笔试题目
  • (转载)(官方)UE4--图像编程----着色器开发
  • *++p:p先自+,然后*p,最终为3 ++*p:先*p,即arr[0]=1,然后再++,最终为2 *p++:值为arr[0],即1,该语句执行完毕后,p指向arr[1]
  • .CSS-hover 的解释
  • .mkp勒索病毒解密方法|勒索病毒解决|勒索病毒恢复|数据库修复
  • .net CHARTING图表控件下载地址
  • .NET DevOps 接入指南 | 1. GitLab 安装