当前位置: 首页 > news >正文

阿里达摩院:FunASR语音识别

阿里达摩院:FunASR语音识别

github:
https://github.com/modelscope/FunASR/

1 clone 代码到本地,切换到 FunASR/

git clone https://github.com/alibaba/FunASR.git && cd FunASR

2 虚拟环境

conda create -p ./venv python=3.12
conda activate ./venv

1 安装依赖

pip install torch
pip install torchaudio

2 安装 funasr

pip install -U funasr

或者

pip install -e ./

3 安装其它模块

pip install -U modelscope huggingface_hub

测试

1 下载模型
modelscope download --model iic/SenseVoiceSmall  --local_dir ./SenseVoiceSmall
modelscope download --model iic/speech_fsmn_vad_zh-cn-16k-common-pytorch  --local_dir ./speech_fsmn_vad_zh-cn-16k-common-pytorch
2 代码测试

在 FunASR/ 目录下创建 wmx_test 文件夹
FunASR/wmx_test/test.py :

from funasr import AutoModel
from funasr.utils.postprocess_utils import rich_transcription_postprocess# model_dir = "iic/SenseVoiceSmall"
model_dir = "./SenseVoiceSmall"
vad_model_dir = "./speech_fsmn_vad_zh-cn-16k-common-pytorch"# input_path="/media/wmx/soft1/AI-model/FunASR/asr_example_en.wav"
input_path="/media/wmx/soft1/AI-model/FunASR/vad_example.wav"model = AutoModel(model=model_dir,# vad_model="fsmn-vad",vad_model=vad_model_dir,vad_kwargs={"max_single_segment_time": 30000},# device="cuda:0",device="cpu",disable_update=True
)# en
res = model.generate(input=input_path,cache={},language="auto",  # "zn", "en", "yue", "ja", "ko", "nospeech"use_itn=True,batch_size_s=60,merge_vad=True,  #merge_length_s=15,
)
text = rich_transcription_postprocess(res[0]["text"])
print(text)

识别输出 :

试错的过程很简单而,且特别是今天报名仓雪卡的同学,你们可以。听到后面的有专门的活动课,他会大大降低你的试绸成本。其实你也可以过来听课,为什么你自己写嘛?我先今天写5个点,我就试试试验一下,反正这5个点不行,我再写5个点,这试再不行,那再写5个点嘛。你总会所谓的活动搭神和所谓的高手,都是只有一个把所有的错,所有的坑全部趟一遍,留下正确的你就是所谓的搭神。明白吗?所以说关于活动通过这块,我只送给你们四个字啊,换位思考。如果说你要想降低你的试错成本,今天来这里你们就是对的。因为有畅畅血卡这个机会,所以说关于活动过于不过这个问题,或者活动很难通过这个话题呃,如果真的要坐下来聊的话,要聊一天。但是我觉得我刚才说的四个字足够。好,谢谢。好,非常感谢那个三茂老师的回答啊。三茂老师说,我们在整个店铺的这个活动当中,我们要学会换位思考。其实

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • macos 使用port查询并安装python2, python3多版本, 设置默认python版本方法
  • 强化学习与自动驾驶研究内容
  • Jupyter Notebook详细教程
  • 【Python报错已解决】“ModuleNotFoundError: No module named ‘timm‘”
  • 软件设计文档绘图:流程图、数据流图、UML
  • 大牛荐书:美团王慧文清华大学产品经理课推荐阅读书单
  • Linux 软硬连接
  • 终于有人将多模态重点内容做成了动画
  • windows 编译libx264报错问题之解决
  • Large Language Models(LLMs) Concepts
  • 【最全深度学习介绍】基本概念、类型、应用、优缺点、与机器学习区别是什么?
  • springboot中根据id查询用户信息
  • SAP 查询中间表
  • 【Spring】Spring MVC 入门(2)
  • TeamTalk消息服务器学习
  • 【干货分享】SpringCloud微服务架构分布式组件如何共享session对象
  • 2018天猫双11|这就是阿里云!不止有新技术,更有温暖的社会力量
  • CentOS 7 修改主机名
  • Centos6.8 使用rpm安装mysql5.7
  • Computed property XXX was assigned to but it has no setter
  • Elasticsearch 参考指南(升级前重新索引)
  • IDEA常用插件整理
  • Python 使用 Tornado 框架实现 WebHook 自动部署 Git 项目
  • REST架构的思考
  • Twitter赢在开放,三年创造奇迹
  • Vue源码解析(二)Vue的双向绑定讲解及实现
  • 从零搭建Koa2 Server
  • 力扣(LeetCode)22
  • 设计模式(12)迭代器模式(讲解+应用)
  • ​sqlite3 --- SQLite 数据库 DB-API 2.0 接口模块​
  • ​如何防止网络攻击?
  • ​软考-高级-系统架构设计师教程(清华第2版)【第12章 信息系统架构设计理论与实践(P420~465)-思维导图】​
  • #### go map 底层结构 ####
  • #绘制圆心_R语言——绘制一个诚意满满的圆 祝你2021圆圆满满
  • $.ajax()参数及用法
  • $.ajax()方法详解
  • (1)(1.8) MSP(MultiWii 串行协议)(4.1 版)
  • (13)[Xamarin.Android] 不同分辨率下的图片使用概论
  • (2)从源码角度聊聊Jetpack Navigator的工作流程
  • (超详细)语音信号处理之特征提取
  • (附源码)springboot社区居家养老互助服务管理平台 毕业设计 062027
  • (免费领源码)python#django#mysql校园校园宿舍管理系统84831-计算机毕业设计项目选题推荐
  • (转)【Hibernate总结系列】使用举例
  • (转)拼包函数及网络封包的异常处理(含代码)
  • (转)我也是一只IT小小鸟
  • .form文件_SSM框架文件上传篇
  • .net core 控制台应用程序读取配置文件app.config
  • .NET Core、DNX、DNU、DNVM、MVC6学习资料
  • .NET Framework 4.6.2改进了WPF和安全性
  • .net framwork4.6操作MySQL报错Character set ‘utf8mb3‘ is not supported 解决方法
  • .NET Micro Framework 4.2 beta 源码探析
  • .NET/C# 中你可以在代码中写多个 Main 函数,然后按需要随时切换
  • @media screen 针对不同移动设备
  • [ 物联网 ]拟合模型解决传感器数据获取中数据与实际值的误差的补偿方法
  • [ 英语 ] 马斯克抱水槽“入主”推特总部中那句 Let that sink in 到底是什么梗?