当前位置: 首页 > news >正文

海天瑞声做智能语音界的“幕后英雄”

 不知从什么时候开始,人类已经迈入智能时代,机器变得更加“贴心”,能对人类行为有所感知,让人类生活变得丰富多彩起来。智能时代,人们通过智能语音系统发送简讯、操纵汽车、遥控设备,这一切主要归功于智能语音的诞生。

海天瑞声从1998年进入智能语音行业至今已经有18年的历史。作为中国最早进入到工程化应用语音语料领域的资源供应商,海天瑞声可以提供110多种语言、覆盖全球75个国家和地区的语音语料数据的采集和人工转写标注服务,能够制作45种语言的专业发音词典,图形图像视频音频数据的采集和标注服务之外,还可以根据客户的需要提供一站式的综合数据解决方案,从语料设计,采集,处理,模型训练,语音系统测评测等各个环节的服务,为客户提供全面的解决方案。

“我们公司所做的事情,有点像智能语音产业的‘幕后英雄’,用户看不到我们,却能时时刻刻体验到我们。”北京海天瑞声科技有限公司的市场总监陈清说道。目前市场上的车载语音系统,在悦耳自然的声音背后,就可以发掘到用来训练引擎模型的大规模的音语料库的身影。

人机交互作为智能语音的核心技术,通过相互理解的交流与通信让机器理解人类语言,从而可以让机器听从人类的安排。机器“能听会说”的技术重点主要依靠两方面:一是语音识别(能听)和语音合成(能说)引擎开发的技术成熟度,二是用于训练引擎的训练语料的规模和品质,其中包含语音和文本语料两大类。

人类语言是一个极为复杂的体系,机器对人类语言的理解和识别过程与人类极为不同。在一定程度上,智能语音的两大核心——语音识别和语音合成引擎的开发技术水平已经十分成熟。正因如此,训练语料越来越成为一个提升用户体验的瓶颈。

陈清指出,作为最终用户,对语音识别系统的体验不仅要从它的识别速度,更要从识别的精准度两方面来衡量,这就要求开发者从引擎设计运算能力、网络速度以及训练语料的设计水平等多方面进行不断提升,努力破除用户体验的瓶颈。

语音合成引擎是信息处理领域的一项前沿技术,解决的主要问题是如何将文本状态的文字信息转化为可听的声音信息,使以往只能用眼睛看的文字信息,也可以用耳朵来听。通俗地说,就是让电脑开口说话的技术。

合成语音的自然度和流利度,包括同一句话里的自然停顿,语气正常起伏等能直接感知的指标,与引擎算法设计和语料库,有同等重要的关系。因此,在语料设计方面,就需要考虑到性别年龄口音音色说话速度方言口音等多方面的因素。同时,考虑到成本和计算机运算能力的限制,要用尽可能少的数量覆盖尽可能多的语言现象和发音特点, 这对语料设计者的语言学和语意学的研究积累,也是一个很大的挑战。

未来海天瑞声还将推出的中国最大智能语音数据资源平台——天籁数据中心,面向全球科研用户,提供免费或极低收费的高品质科研数据,支持智能语音及相关人工智能领域,如自然语音理解,机器翻译等人机交互技术的科研,测试和模型训练的需要。  

原文发布时间为:2015-7-14

 

本文作者:孙博

本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网


相关文章:

  • Python交互数据库(Mysql | Mongodb | Redis)
  • Android Studio 3.0 下载 使用新功能介绍
  • Linux 常用端口
  • 利用OpenCV检测图像中的长方形画布或纸张并提取图像内容
  • Java的类的创建
  • Spring获取bean的工具类
  • ASP.NET Core 运行原理解剖[4]:进入HttpContext的世界
  • 基于centos7.3 redhat7.3安装LAMP(php7.0 php7.1)生产环境实践
  • C++ 迭代器二分搜索方法示例
  • Class类文件结构概述
  • Spring MVC-集成(Integration)-生成JSON示例(转载实践)
  • Spring MVC-集成(Integration)-集成LOG4J示例(转载实践)
  • WebSocket使用
  • CCF201703试题
  • 2017-09-12 前端日报
  • Android框架之Volley
  • ES6语法详解(一)
  • JAVA SE 6 GC调优笔记
  • nfs客户端进程变D,延伸linux的lock
  • Transformer-XL: Unleashing the Potential of Attention Models
  • v-if和v-for连用出现的问题
  • vue从创建到完整的饿了么(11)组件的使用(svg图标及watch的简单使用)
  • 从零开始的无人驾驶 1
  • 罗辑思维在全链路压测方面的实践和工作笔记
  • 前端技术周刊 2019-02-11 Serverless
  • 浅谈Golang中select的用法
  • 译米田引理
  • 在weex里面使用chart图表
  • 转载:[译] 内容加速黑科技趣谈
  • CMake 入门1/5:基于阿里云 ECS搭建体验环境
  • 积累各种好的链接
  • 直播平台建设千万不要忘记流媒体服务器的存在 ...
  • #### go map 底层结构 ####
  • (C语言)深入理解指针2之野指针与传值与传址与assert断言
  • (Java岗)秋招打卡!一本学历拿下美团、阿里、快手、米哈游offer
  • (LeetCode C++)盛最多水的容器
  • (ZT)薛涌:谈贫说富
  • (八)Docker网络跨主机通讯vxlan和vlan
  • (附源码)springboot车辆管理系统 毕业设计 031034
  • (删)Java线程同步实现一:synchronzied和wait()/notify()
  • (五)大数据实战——使用模板虚拟机实现hadoop集群虚拟机克隆及网络相关配置
  • (原創) X61用戶,小心你的上蓋!! (NB) (ThinkPad) (X61)
  • (原創) 如何安裝Linux版本的Quartus II? (SOC) (Quartus II) (Linux) (RedHat) (VirtualBox)
  • (转)EXC_BREAKPOINT僵尸错误
  • (转)Mysql的优化设置
  • ./configure,make,make install的作用(转)
  • .NET 服务 ServiceController
  • .NET单元测试
  • @column注解_MyBatis注解开发 -MyBatis(15)
  • @property python知乎_Python3基础之:property
  • @德人合科技——天锐绿盾 | 图纸加密软件有哪些功能呢?
  • [ C++ ] STL priority_queue(优先级队列)使用及其底层模拟实现,容器适配器,deque(双端队列)原理了解
  • [2018][note]用于超快偏振开关和动态光束分裂的all-optical有源THz超表——
  • [⑧ADRV902x]: Digital Pre-Distortion (DPD)学习笔记
  • [Angular 基础] - 自定义指令,深入学习 directive