当前位置: 首页 > news >正文

音视频开发—音频相关概念:数模转换、PCM数据与WAV文件详解

文章目录

    • 前言
    • 1.模拟数字转换(ADC)
      • 1.1ADC的关键步骤:
    • 2.数字模拟转换(DAC)
      • 2.1DAC 的基本流程包括:
    • 3.PCM数据
      • 3.1PCM 数据的关键要素包括:
    • 4.WAV文件
      • 4.1 WAV的构成
      • 4.2WAV文件的标准块结构
      • 4.3WAV的使用场景
    • 5.PCM与WAV的关系

前言

数字模拟转换(DAC)和模拟数字转换(ADC)是音频技术中非常重要的两个概念,它们在数字音频设备和系统中发挥着核心作用。这两种转换技术确保了模拟信号和数字信号之间的互转,使得音频信号可以在不同的媒体和设备间有效传输和处理。

1.模拟数字转换(ADC)

模拟数字转换是将模拟信号(连续信号)转换成数字信号(离散信号)的过程。在音频应用中,这意味着将捕捉到的声音(例如通过麦克风)转换成数字格式,以便于存储、编辑或处理。

一段原始的声音波形例子如下:
在这里插入图片描述

1.1ADC的关键步骤:

采样:测量模拟信号的振幅值,在特定的时间间隔内进行。这个时间间隔称为采样间隔,其倒数为采样率。例如,CD音质的标准采样率为44.1 kHz,即每秒采样44100次。

量化:将每次采样得到的模拟值转换为最接近的数字值。这个过程涉及到将连续的振幅值映射到有限的数字级别上。量化的精度通常由位深度(比特率)决定,例如16位、24位等。位深度指的是用于记录声音采样值的比特数。位深度越高,可以表示的声音振幅级别就越多,从而可以更精确地复制录音的动态范围和细节。以下是一些常见的位深度示例及其含义:

  • 16位:这是CD音质的标准位深度,它可以提供约96 dB的动态范围。16位系统可以表示 216=65536216=65536 不同的振幅级别。
  • 24位:这是专业音频工作的常用位深度,可以提供约144 dB的动态范围,使其能够记录更细微的音量变化。24位系统可以表示 224=16777216224=16777216 不同的振幅级别。
    在这里插入图片描述

量化后的数字信息如下:

在这里插入图片描述

编码:将量化后的值转换为二进制数码,形成数字信号。

在这里插入图片描述

ADC 的输出是数字信号,这意味着原始的连续模拟信号被转换为一系列离散的数字值。这些数字值可以用于数字处理、存储或其他数字应用。

2.数字模拟转换(DAC)

数字模拟转换是将数字信号转换回模拟信号的过程。这一步骤在播放数字音频文件时尤为关键,如在数字音乐播放器、计算机或智能手机中。

2.1DAC 的基本流程包括:

  1. 解码:将存储的数字数据(通常为二进制形式)解码成数字量化值。
  2. 重构:通过插值算法处理这些量化值,重构出原始的模拟波形。在这一过程中,可能会使用各种滤波技术来平滑输出信号,减少所谓的“阶梯效应”(由量化步骤产生的不连续变化)。
  3. 放大:将重构后的模拟信号放大,以适合后续的播放硬件(如扬声器或耳机)。

如将上图的数字信号转换为模拟信号,

在这里插入图片描述

3.PCM数据

PCM(Pulse Code Modulation,脉冲编码调制)是一种用于数字化模拟信号的技术,例如声音。在音频技术中,PCM是将声音等模拟信号转换为数字信号的标准格式。这种格式通过对模拟信号进行采样、量化和编码来生成数字音频数据。PCM 数据提供了一种非常纯净和精确的方式来存储声音,但由于其数据量大,通常需要更多的存储空间和带宽。

3.1PCM 数据的关键要素包括:

  1. 采样率(Sampling Rate)
    • 这是每秒钟采集模拟信号样本的次数,表示为赫兹(Hz)。常见的采样率有 44100 Hz(CD质量)、48000 Hz(专业视频和音频应用)、96000 Hz 或更高(高分辨率音频)。
  2. 位深度(Bit Depth)
    • 位深度决定了每个样本的音频分辨率,即每个采样的数据大小。常见的位深度有 16位(CD音质)、24位(专业音频)。位深度越高,可以记录的动态范围越广,音质越细腻。
  3. 声道数(Channels)
    • 声道数指的是音频流中的独立音频信号数量,例如单声道、立体声(两个声道),或多声道(如5.1环绕声系统使用的六个声道)。

4.WAV文件

WAV(或波形音频文件格式)是一种无损的音频文件格式,由微软和IBM共同开发,主要用于Windows操作系统。它通常被用于存储未压缩的音频数据,这使得它成为专业音频编辑和处理中非常受欢迎的格式。因为音频数据未经压缩,所以WAV文件通常比MP3或其他压缩格式的文件大得多。

4.1 WAV的构成

WAV文件主要由以下几个部分构成:

  1. RIFF Header(资源交换文件格式头):
    • WAV文件以“RIFF”标记作为文件的开始。这个标头指明了文件是一个资源交换文件格式,并包含了整个文件的大小。
  2. WAVE Header(WAVE头):
    • 紧接着RIFF头的是“WAVE”标记,它表明这是一个WAVE类型的数据文件。
  3. Format Chunk(格式块):
    • 这是WAV文件中最重要的部分之一,它包含了有关音频数据格式的详细信息,如声道数(单声道或立体声)、采样率、位深度(每个样本的位数),以及每秒的数据字节数。
  4. Data Chunk(数据块):
    • 数据块包含了实际的音频采样数据。这个部分的大小取决于录音的长度和质量。每个采样点的数据通常以小端格式存储(在x86架构的计算机上)。

4.2WAV文件的标准块结构

  • RIFF Header: RIFF[大小]WAVE
  • Format Chunk: fmt [大小][格式类型][通道数][采样率][字节率][块对齐][位深度]
  • Data Chunk: data[大小][音频采样数据]

4.3WAV的使用场景

WAV格式由于其无损的特性,广泛用于:

  • 专业音频录制与编辑:在音乐制作和广播中,WAV格式因为其高保真度而被频繁使用。
  • 音频分析:科研和工程应用中,需要对原始音频数据进行精确分析时,通常会使用WAV格式。
  • 系统音效:在Windows操作系统中,系统音效通常以WAV格式存储。

5.PCM与WAV的关系

  • PCM 是音频数据编码的一种方式,而WAV 是一种文件格式,通常用来存储PCM编码的音频数据。
  • WAV 文件通常包含PCM数据,但WAV格式的灵活性也允许它包含压缩音频,如MP3编码的音频。然而,在实际应用中,WAV文件大多数情况下确实是用来存储PCM数据。
  • 由于WAV文件包含详细的头信息(采样率、位深度、声道等),它们比原始的PCM数据文件更易于在不同的播放设备和程序之间移植和使用。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 一、Nginx详解和安装
  • 翻译《The Old New Thing》- How do I mark a shortcut file as requiring elevation?
  • 微信小程序毕业设计-跑腿系统项目开发实战(附源码+演示视频+LW)
  • 青蛙跳台阶问题
  • [备忘.经验总结]特例问题通用问题,分而治之
  • 手机App收集个人信息,用户是否有权拒绝?
  • 所有平台均可发布,矩阵操作+工具+素材,自动混剪8090后怀旧视频
  • 牛客循环5.27
  • EPBU/MOBI转PDF
  • fastadmin二次开发 修改默认的前端弹出样式
  • JVM 常见配置参数
  • 汇聚荣科技有限公司怎么样?
  • 人工智能应用层岗位—AI项目经理/AI产品经理
  • 【MySQL】MySQL的安装和基本概念
  • 亚马逊云科技专家分享 | OPENAIGC开发者大赛能量加油站6月5日场预约开启~
  • 【407天】跃迁之路——程序员高效学习方法论探索系列(实验阶段164-2018.03.19)...
  • Angular数据绑定机制
  • Codepen 每日精选(2018-3-25)
  • CSS盒模型深入
  • DataBase in Android
  • ERLANG 网工修炼笔记 ---- UDP
  • in typeof instanceof ===这些运算符有什么作用
  • leetcode378. Kth Smallest Element in a Sorted Matrix
  • Linux gpio口使用方法
  • Making An Indicator With Pure CSS
  • node-glob通配符
  • SpiderData 2019年2月16日 DApp数据排行榜
  • v-if和v-for连用出现的问题
  • 阿里云爬虫风险管理产品商业化,为云端流量保驾护航
  • 从重复到重用
  • 将 Measurements 和 Units 应用到物理学
  • 浏览器缓存机制分析
  • 前端学习笔记之观察者模式
  • ‌JavaScript 数据类型转换
  • #!/usr/bin/python与#!/usr/bin/env python的区别
  • #stm32整理(一)flash读写
  • #多叉树深度遍历_结合深度学习的视频编码方法--帧内预测
  • (01)ORB-SLAM2源码无死角解析-(66) BA优化(g2o)→闭环线程:Optimizer::GlobalBundleAdjustemnt→全局优化
  • (2024,LoRA,全量微调,低秩,强正则化,缓解遗忘,多样性)LoRA 学习更少,遗忘更少
  • (55)MOS管专题--->(10)MOS管的封装
  • (C语言)字符分类函数
  • (react踩过的坑)Antd Select(设置了labelInValue)在FormItem中initialValue的问题
  • (Redis使用系列) Springboot 实现Redis 同数据源动态切换db 八
  • (笔试题)合法字符串
  • (二)Eureka服务搭建,服务注册,服务发现
  • (二)pulsar安装在独立的docker中,python测试
  • (附源码)php新闻发布平台 毕业设计 141646
  • (附源码)spring boot网络空间安全实验教学示范中心网站 毕业设计 111454
  • (附源码)springboot宠物医疗服务网站 毕业设计688413
  • (每日持续更新)信息系统项目管理(第四版)(高级项目管理)考试重点整理 第13章 项目资源管理(七)
  • (免费领源码)python#django#mysql公交线路查询系统85021- 计算机毕业设计项目选题推荐
  • (十)T检验-第一部分
  • (四)JPA - JQPL 实现增删改查
  • (四)TensorRT | 基于 GPU 端的 Python 推理
  • (转)Android学习系列(31)--App自动化之使用Ant编译项目多渠道打包