Muchos vocoders usan un gran número de canales, cada uno en una frecuencia. Los diversos valores de esos filtros no son almacenados como números, que están basados en la frecuencia original, sino por una serie de modificaciones que el fundamental necesita para ser modificado en la señal vista en el filtro. Durante la reproducción esos números son enviados de vuelta a los filtros y entonces se modifican con el conocimiento de que el habla varía típicamente entre esas frecuencias. El resultado es habla inteligible, aunque algo mecánica. Los vocoders a menudo incluyen también un sistema para generar sonidos sordos, usando un segundo sistema para generar sonidos sordos consistente en un generador de ruido en lugar de la frecuencia fundamental.
El vocoder examina el habla encontrando su onda básica, que es la frecuencia fundamental, y midiendo cómo cambian las características espectrales con el tiempo grabando el habla. Esto da como resultado una serie de números representando esas frecuencias modificadas en un tiempo particular a medida que el usuario habla. Al hacer esto, el vocoder reduce en gran medida la cantidad de información necesaria para almacenar el habla. Para recrear el habla, el vocoder simplemente revierte el proceso, creando la frecuencia fundamental en un oscilador electrónico y pasando su resultado por una serie de filtros basado en la secuencia original de símbolos.
El vocoder está relacionado con el algoritmo denominado phase vocoder, o vocoder de fase, aunque esencialmente es diferente de éste. Una phase vocoder es un tipo de vocoder que permite escalar una señal de audio tanto en el dominio de la frecuencia como en el dominio del tiempo usando información de fase. El algoritmo permite la modificación del espectro de un señal de audio, mediante lo cual es posible realizar efectos tales como compresión o expansión temporal y desfase de alturas (pitch shifting).
El phase vocoder se basa en la Transformada de Fourier de tiempo corto, o STFT. La STFT genera un representación combinada de tiempo y frecuencia del sonido, o lo que se denomina un sonograma, a través de sucesivas FFT en intervalos de tiempo relativamente cortos. En cada frame es posible modificar la información de amplitud o fase de la FFT, para luego resintetizar el sonido, generando de esta manera variaciones espectrales.