En el caso de la voz humana, para cada sonido usualmente se producen entre tres y seis formantes principales, denotados como F1, F2, F3, etc. Normalmente sólo los dos primeros son necesarios para caracterizar una vocal, si bien la pueden caracterizar hasta seis formantes. Los formantes posteriores determinan propiedades acústicas como el timbre. Los dos primeros formantes se determinan principalmente por la posición de la lengua. F1 tiene una frecuencia más alta cuanto más baja está la lengua, es decir, cuanta mayor abertura tenga una vocal, mayor es la frecuencia en que aparece el F1. F2 tiene mayor frecuencia cuanto más hacia delante está posicionada la lengua, es decir, cuanto más anterior es una vocal, mayor es el F2.
La síntesis basada en formantes se basa en este fenómeno de la voz humana. La idea es crear zonas de concentración de energía en el espectro del sonido sintetizado, lo que imita el sonido de la voz.