AAC简介:
MPEG家族:
AAC是MPEG家族中的音频算法之一;其实AAC分了很多种://关于MPEG家族,可以看视频编码和容器流媒体概念;
1991 MPEG-1 or MPEG-2 Audio Layer III,由位于德国埃尔朗根的研究组织弗劳恩霍夫协会的一组工程师发明和标准化的,它被设计来大幅降低音频数据量,通过舍弃PCM音频资料中对人类听觉不重要的部分 –MP3
1997 基于MPEG-2的有损数字音频压缩的专利音频编码标准;由Fraunhofer IIS、杜比实验室、AT&T、Sony、Nokia等公司共同开发 –MPEG-2 AAC
2000 MPEG-4标准在原本的基础上加上了PNS(Perceptual Noise Substitution)等技术,并提供了多种扩展工具。 –MPEG-4 AAC
2003 HE-AAC v1 (aac+)
2006 HE-AAC v2 (eaac+)
于是总共有:MPEG-2 AAC LC低复杂度规格(Low Complexity)
MPEG-2 AAC Main主规格
MPEG-2 AAC SSR可变采样率规格(Scaleable Sample Rate)
MPEG-4 AAC LC低复杂度规格(Low Complexity),现在的手机比较常见的MP4文件中的音频部分就包括了该规格音频档案
MPEG-4 AAC Main主规格
MPEG-4 AAC SSR可变采样率规格(Scaleable Sample Rate)
MPEG-4 AAC LTP长时期预测规格(Long Term Predicition)
MPEG-4 AAC LD低延迟规格(Low Delay)
MPEG-4 AAC HE高效率规格(High Efficiency)
常见:MPEG-4 AAC LC(Low Complexity)是最常用的规格,我们叫“低复杂度规格”,我们简称“LC-AAC”,AAC 编码器:
FhG:Fraunhofer IIS研发的权威编码器。
Nero AAC:同时支持LC-AAC / HE-AAC规格,由Nero公司免费发布的Nero AAC编码器。
QuickTime / iTunes:Apple公司的两款软件都提供了AAC编码功能,其编码技术来自”Dolby Laboratories”(简写为Dolby Labs,杜比实验室)。
FAAC(Freeware Advanced Audio Coder):也是一种很好的命令行编码器,支持LC/Main/LTP规格,而这个软件是免费的。FAAC是属于自由软件。
DivX AAC:2009年DivX开发出来的新AAC编码器,支持LC/HE/HEv2规格。目前正在测试中。
AAC常见的扩展名:
1
2
3.aac
.mp4
.m4a更多历史介绍:https://zh.wikipedia.org/wiki/%E9%80%B2%E9%9A%8E%E9%9F%B3%E8%A8%8A%E7%B7%A8%E7%A2%BC
ADTS和AAC:
经验中:ADTS是aac音频文件的封装,而纯aac则可以用于流媒体传输,比如放到flv中,当然流媒体也可以传输adts.
AAC文件的封装:
通过AAC协议和文件查看 AAC Audio ES Viewer,可以看到,AAC文件是这样封装的:
ADTS header + AAC raw data ADTS header+AAC raw data ….这样;
ADTS header: adts_fixed_header() + adts_variable_header() 后者可变在于有没有包含atdt_error_check()16bit
adts_fixed_header()为固定头,是28bit, adts_variable_header() 为前面固定的28bit,加可能有的16bit tatdt_error_check()
所以ADTS header: 7(28bit+28bit)/9 Bytes(28+28+16);
ADTS头 的各个字段解释:
1 | Header consists of 7 or 9 bytes (without or with CRC). |
aac rowdatablock:
一个典型的aac音频文件编码是这样一串:
Adts header aac rawdatablock adts header aac rawdatablock
但是首帧,可能是某种类型的rawdatablock;
关于rawdatablock
Raw_data_block格式如下,id_syn_ele:3位标志位,指示后面所跟着的数据流的类型。
在AAC中,原始数据块的组成可能有六种不同的元素:
+ SCE: Single Channel Element单通道元素。单通道元素基本上只由一个ICS组成。一个原始数据块最可能由16个SCE组成。
+ CPE: Channel Pair Element 双通道元素,由两个可能共享边信息的ICS和一些联合立体声编码信息组成。一个原始数据块最多可能由16个SCE组成。
+ CCE: Coupling Channel Element 藕合通道元素。代表一个块的多通道联合立体声信息或者多语种程序的对话信息。
+ LFE: Low Frequency Element 低频元素。包含了一个加强低采样频率的通道。
+ DSE: Data Stream Element 数据流元素,包含了一些并不属于音频的附加信息。
+ PCE: Program Config Element 程序配置元素。包含了声道的配置信息。它可能出现在 ADIF 头部信息中。
+ FIL: Fill Element 填充元素。包含了一些扩展信息。如SBR,动态范围控制信息等。
id_syn_ele 数据流
- ID_SCE(0x0) single_channel_element()
- ID_CPE(0x1)channel_pair_element()
- ID_CCE(0x2)coupling_channel_element()
- ID_LFE(0x3)lfe_channel_element(
- ID_DSE(0x4)data_stream_element()
- ID_PCE(0x5)program_config_element()
- ID_FIL(0x6)fill_element()
ref:
more:https://www.cnblogs.com/fellow1988/p/7291939.html
https://maxwellqi.github.io/ios-audio-format-decoder/
http://www.telemidia.puc-rio.br/~rafaeldiniz/public_files/normas/ISO-13818/ISO_IEC_13818-7_2006(E).pdf
关于buffer fullness:http://blog.olivierlanglois.net/index.php/2008/09/12/aac_adts_header_buffer_fullness_field
FLV中AAC的封装:
FlV由tag构成,而音频的tag是:包含AAC头的tag+ 后面都是AAC 原始数据的tag
11B tag header + 2B audio tag header + 一般是5B的AAC sequence header;
之后就都是数据:11B头+2B音频tag头+aac rawdata==(adts中的aac rawdatablock)
通过flvAnalyser工具可以看到:
更多见flv的封装;和https://wiki.multimedia.cx/index.php/MPEG-4_Audio
如何将flv aac封装为流媒体: 举例:
一般来讲,流媒体传输需要使得最终接收方可以解码播放,所以需要传递解码信息,如音频必备的几个要素:channel,samplaterate,编码方式等等,而版权等根据需要放入metadata
流媒体中AAC的一般封装: ADTS+aac raw data;
AAC 协议:查ADTS头: http://read.pudn.com/downloads98/doc/comm/401153/14496/ISO_IEC_14496-3%20Part%203%20Audio/C036083E_SUB1.PDF page 61-67
http://www.telemidia.puc-rio.br/~rafaeldiniz/public_files/normas/ISO-13818/ISO_IEC_13818-7_2006%28E%29.pdf
ISO_IEC_13818-7_2006(E).pdf MPEG-2的AAC
ISO14496-3-2009.pdf MPEG-4的AAC
HE-AAC: trev_305-moser.pdf
代码:
一个解析aac文件的简单程序:
1 | #!/usr/bin/env python3 |