当前位置: 首页 > news >正文

OpenAI 开源语音识别 Whisper

        Whisper是一个通用语音识别模型。它是在各种音频的大型数据集上训练的,也是一个多任务模型,可以执行多语言语音识别以及语音翻译和语言识别。        

       人工智能公司 OpenAI 拥有 GTP-3 语言模型,并为 GitHub Copilot 提供技术支持的 ,宣布开源了Whisper 自动语音识别系统,Open AI 强调 Whisper 的语音识别能力已达到人类水准。

         在各种语音处理任务中训练Transformer序列到序列模型,包括多语言语音识别、语音翻译、口语识别和语音活动检测。所有这些任务都被联合表示为由解码器预测的令牌序列,允许单一模型取代传统语音处理管道的许多不同阶段。多任务训练格式使用一组特殊的令牌作为任务说明符或分类目标。

         Whisper 是一个自动语音识别(ASR,Automatic Speech Recognition)系统,OpenAI 通过从网络上收集了 68 万小时的多语言(98 种语言)和多任务(multitask)监督数据对 Whisper 进行了训练。OpenAI 认为使用这样一个庞大而多样的数据集,可以提高对口音、背景噪音和技术术语的识别能力。除了可以用于语音识别,Whisper 还能实现多种语言的转录,以及将这些语言翻译成英语。OpenAI 开放模型和推理代码,希望开发者可以将 Whisper 作为建立有用的应用程序和进一步研究语音处理技术的基础

  

        Whisper体系结构是一种简单的端到端方法,实现为编码器-解码器Transformer。输入音频被分成30秒的片段,转换成log-Mel谱图,然后传入编码器。解码器被训练来预测相应的文本标题,并混合特殊标记,指示单一模型执行诸如语言识别、短语级时间戳、多语言语音转录和英语语音翻译等任务。

     OpenAI 希望 Whisper 的高准确性和易用性可以让开发者在更广泛的应用中加入语音识别功能,尤其是用来协助改善无障碍工具。 

参考:

https://cdn.openai.com/papers/whisper.pdf

GitHub - openai/whisper

Introducing Whisper

相关文章:

  • 陈齐彦:云原生,抵达元宇宙的数字基石
  • WEB自动化测试(1)—— Cypress 介绍
  • C#把数据库表里简体字转化为繁体字
  • JAVA计算机毕业设计云音乐后端内容管理系统Mybatis+系统+数据库+调试部署
  • Vue基础之插槽、自定义指令、render函数、过滤器
  • 企业实践开源的动机
  • 【力扣刷题】Day06——哈希表专题
  • 【web】计算机网络编程(重点:UDP数据报/TCP流套接字编程)
  • img2col 卷积优化讲解
  • 微服务SpringBoot+Neo4j搭建企业级分布式应用拓扑图
  • 简述你对RPC、RMI的理解
  • 召回侧对齐精排的多目标打分融合
  • 使用 PyTorch 读取自己的数据集
  • 谷粒学院16万字笔记+1600张配图(十)——课程管理
  • 【Verilog我思我用】-generate
  • 分享一款快速APP功能测试工具
  • 【跃迁之路】【477天】刻意练习系列236(2018.05.28)
  • 07.Android之多媒体问题
  • 10个确保微服务与容器安全的最佳实践
  • ComponentOne 2017 V2版本正式发布
  • Django 博客开发教程 8 - 博客文章详情页
  • JavaScript 奇技淫巧
  • PHP 小技巧
  • python docx文档转html页面
  • RxJS 实现摩斯密码(Morse) 【内附脑图】
  • Spring核心 Bean的高级装配
  • 给初学者:JavaScript 中数组操作注意点
  • 猫头鹰的深夜翻译:JDK9 NotNullOrElse方法
  • 如何抓住下一波零售风口?看RPA玩转零售自动化
  • 使用 Node.js 的 nodemailer 模块发送邮件(支持 QQ、163 等、支持附件)
  • 算法-图和图算法
  • 一个普通的 5 年iOS开发者的自我总结,以及5年开发经历和感想!
  • 由插件封装引出的一丢丢思考
  • 原生Ajax
  • “十年磨一剑”--有赞的HBase平台实践和应用之路 ...
  • Semaphore
  • 东超科技获得千万级Pre-A轮融资,投资方为中科创星 ...
  • ​​​​​​​Installing ROS on the Raspberry Pi
  • ​configparser --- 配置文件解析器​
  • #微信小程序:微信小程序常见的配置传旨
  • (2)STM32单片机上位机
  • (C++17) std算法之执行策略 execution
  • (LNMP) How To Install Linux, nginx, MySQL, PHP
  • (二)学习JVM —— 垃圾回收机制
  • (分类)KNN算法- 参数调优
  • (附源码)ssm考试题库管理系统 毕业设计 069043
  • (规划)24届春招和25届暑假实习路线准备规划
  • (剑指Offer)面试题41:和为s的连续正数序列
  • (四)Controller接口控制器详解(三)
  • (一)硬件制作--从零开始自制linux掌上电脑(F1C200S) <嵌入式项目>
  • (转)JAVA中的堆栈
  • .net core 微服务_.NET Core 3.0中用 Code-First 方式创建 gRPC 服务与客户端
  • /3GB和/USERVA开关
  • /usr/bin/python: can't decompress data; zlib not available 的异常处理
  • @FeignClient注解,fallback和fallbackFactory