Consonancia y disonancia
Índice General Índice de Materias

Codificación perceptual de audio

La codificación perceptual de audio consiste, de modo general, en un método para reducir la cantidad requerida de datos para representar una señal de audio digital. Este método inevitablemente genera pérdidas en términos de calidad, introduciendo una cierta cantidad de ruido que podría perfectamente caer dentro del rango de la audición humana si se analiza en forma aislada. Sin embargo, la codificación perceptual está diseñada de tal manera que el ruido generado por el codificador cae fuera de los límites de audición humana en presencia de la señal original. Esta distinción es muy importante, ya que los algoritmos de compresión basados en percepción, a diferencia de los esquemas puramente numéricos o algorítmicos, tales como $\mu$ -law o ADPCM, se aprovechan de las limitaciones del sistema auditivo humano.

La idea fundamental de la codificación perceptual de audio es que la presencia de ciertos estímulos auditivos pueden influenciar la habilidad del cerebro humano para percibir otros estímulos. En palabras más simples, este tipo de algoritmos se basa fuertementente en le fenómeno de enmascaramiento, descrito en detalle en la sección 3.3.2. Un codificador perceptual por lo tanto, no codifica aquellos componentes de la señal de audio que se verán enmascarados por otros, ahorrando de esta manera una considerable cantidad de datos perceptualmente redundantes e innecesarios.

Hoy día existen numerosos esquemas de compresión basados en esta premisa, siendo el más conocido el MPEG-1, capa 3, comúnmene conocido como mp3, pero existen muchos otros tales como MPEG layers 1-3, AAC, OGG, Microsoft's Windows Media Audio, Lucent's PAC, ATRAC (utilizado en los minidiscs) y Real Audio.

**Figura 3.24:** Esquema de un codificador perceptual de audio
$\includegraphics[width=9cm]{capitulo3/images/codificador}$

La figura 3.24 muestra los componentes principales de una cadena de codificación perceptual. En el codificador, la señal de entrada se descompone en múltiples bandas de frecuencia. De esta forma, los datos de cada banda se pueden procesar de manera independiente y cada banda puede ser representada con un grado variable de resolución.

La idea es asignar una menor resolución en aquellas bandas de frecuencia que pueden ser representadas con una menor cantidad de información, debido principalmente al enmascaramiento. Cuando la resolución se reduce en alguna banda en particular, crece el ruido de cuantización, detallado en la sección 4.1.2, en esa zona de frecuencias. La idea es cambiar el nivel de cuantización de esa banda de manera de satisfacer la tasa de bits objetivo manteniendo la mayor cantidad de detalles posible. El codificador está constantemente analizando la señal de entrada y toma decisiones acerca de que zonas del espectro se ven emascaradas y por lo tanto, al ser inaudibles, pueden descartarse de la señal y así disminuir la resolución.

Para decodificar se aplica una transformada inversa de manera de combinar las bandas y restaurar la señal original. En el caso en que la resolución de una banda no se vea reducida, el proceso es ideal y sin pérdida.

La efectividad de un codificador perceptual depende de que tan bien puede modelar las limitaciones perceptuales del sistema auditivo humano, pero también depende de si dispone de ancho de banda necesario para contener todo el detalle sonoro que los seres humanos somos capaces de percibir.

Audio digital

Psicoacústica

Consonancia y disonancia
Índice General Índice de Materias