La idea fundamental de la codificación perceptual de audio es que la presencia de ciertos estímulos auditivos pueden influenciar la habilidad del cerebro humano para percibir otros estímulos. En palabras más simples, este tipo de algoritmos se basa fuertementente en le fenómeno de enmascaramiento, descrito en detalle en la sección 3.3.2. Un codificador perceptual por lo tanto, no codifica aquellos componentes de la señal de audio que se verán enmascarados por otros, ahorrando de esta manera una considerable cantidad de datos perceptualmente redundantes e innecesarios.
Hoy día existen numerosos esquemas de compresión basados en esta premisa, siendo el más conocido el MPEG-1, capa 3, comúnmene conocido como mp3, pero existen muchos otros tales como MPEG layers 1-3, AAC, OGG, Microsoft's Windows Media Audio, Lucent's PAC, ATRAC (utilizado en los minidiscs) y Real Audio.
La figura 3.24 muestra los componentes principales de una cadena de codificación perceptual. En el codificador, la señal de entrada se descompone en múltiples bandas de frecuencia. De esta forma, los datos de cada banda se pueden procesar de manera independiente y cada banda puede ser representada con un grado variable de resolución.
La idea es asignar una menor resolución en aquellas bandas de frecuencia que pueden ser representadas con una menor cantidad de información, debido principalmente al enmascaramiento. Cuando la resolución se reduce en alguna banda en particular, crece el ruido de cuantización, detallado en la sección 4.1.2, en esa zona de frecuencias. La idea es cambiar el nivel de cuantización de esa banda de manera de satisfacer la tasa de bits objetivo manteniendo la mayor cantidad de detalles posible. El codificador está constantemente analizando la señal de entrada y toma decisiones acerca de que zonas del espectro se ven emascaradas y por lo tanto, al ser inaudibles, pueden descartarse de la señal y así disminuir la resolución.
Para decodificar se aplica una transformada inversa de manera de combinar las bandas y restaurar la señal original. En el caso en que la resolución de una banda no se vea reducida, el proceso es ideal y sin pérdida.
La efectividad de un codificador perceptual depende de que tan bien puede modelar las limitaciones perceptuales del sistema auditivo humano, pero también depende de si dispone de ancho de banda necesario para contener todo el detalle sonoro que los seres humanos somos capaces de percibir.