Cómo funciona la compresión MP3

Como funciona la compresion MP3

Todo el mundo conoce los archivos de música MP3. Este formato ocupa menos espacio que el archivo de audio original ya que al realizar la conversión a MP3, se aplica un algoritmo de compresión que analiza el sonido original y elimina algunos detalles de la grabación que se consideran prescindibles, que supuestamente nuestro oído nunca iba a percibir.

El archivo MP3 ocupa menos espacio pero pierde información de la grabación original, por lo que es una compresión con pérdidas. La cuestión es,  ¿en qué se basa el algoritmo para desechar esos detalles de la música? ¿cómo se eliminan de la grabación? ¿realmente no importan y no percibimos esas pérdidas?

MP3 y el enmascaramiento auditivo

Enmascaramiento y algoritmo MP3

El algoritmo para la compresión MP3 elimina detalles de la música original basándose en el fenómeno del enmascaramiento sonoro de nuestro sentido del oído, un fenómeno psicoacústico tan cotidiano que seguro que muchos no le habrán prestado atención antes, y que es necesario conocer para entender el MP3.

Imaginemos que estamos hablando con alguien por la calle, pasa un coche y de repente dejamos de oír a nuestro interlocutor. ¿Por qué hemos dejado de oír a la otra persona? Si hubiésemos grabado esta situación con un micrófono veríamos que ambos sonidos, la voz y el coche, se habrían registrado perfectamente…

Este fenómeno ocurre porque hay situaciones en las que nuestro sentido del oído da protagonismo a un sonido e ignora otro si ambos son simultáneos, lo que se denomina enmascaramiento sonoro, y que depende de causas bien tipificadas y que se pueden resumir como sigue.

Enmascaramiento frecuencial

Enmascaramiento del sonido

Un sonido puede enmascarar a otro cuando llegan simultáneamente al oído dependiendo de sus frecuencias y volúmenes relativos. Como se ve en la figura, ante el sonido más fuerte nuestro oído crea un nuevo limite de audición o de enmascaramiento en ese momento. Si otro sonido simultáneo está bajo ese entorno frecuencial, no lo percibiremos.

Enmascaramiento temporal

Enmascaramiento temporal

Cuando se da un sonido de suficiente potencia para ser enmascarante, hay unos instantes antes y después en los que no percibiremos otros sonidos, dependiendo de cuanto de cerca estén en el tiempo y de su volumen relativo, con el comportamiento representado en la figura. Como se ve, un sonido puede ser enmascarado tanto si ocurre inmediatamente despues del enmascarante, como si ocurre antes!

El algoritmo de compresión MP3

Codificación MP3

Cuando realizamos una compresión a MP3, el algoritmo de codificación divide la música en multitud de fragmentos de corta duración. Cada uno de estos fragmentos son analizados individualmente en muchas bandas de frecuencia, para poder detectar si en alguna de ellas hay algún sonido enmascarante que esté enmascarando a sonidos de las otras bandas del fragmento, y que por tanto sean inaudibles o prescindibles. En ese caso, lo que hará es codificar ese fragmento con menos bits que el fragmento original, por lo que se perderá resolución de los detalles más sutiles (esos detalles que se han visto prescindibles) y aumentará el ruido de fondo del fragmento.

La cantidad de la reducción de bits para ese fragmento dependerá de la calidad que se busque en la codificación. Si le configuramos alta calidad reducirá la resolución del fragmento sólo lo justo para que el nuevo ruido de fondo siga quedando enmascarado por el sonido enmascarante que se había detectado en ese fragmento.

Por lo tanto, y según la teoría del enmascaramiento, no se percibirá cambio alguno tras la reducción de resolución: ni por la perdida de los detalles que estaban ya originalmente enmascarados, ni por el nuevo ruido de fondo, que seguirá siendo imperceptible al mantenerse también por debajo de ese sonido enmascarante detectado.

Tras este proceso, el fragmento se habrá podido codificar con menos bits, ocupando menos información que el original. Una vez repetido este intento de reducción de bits con toda la multitud de fragmentos en los que se había dividido el archivo original, se reconstruye la canción y se obtiene un archivo comprimido que ahora ocupará menos espacio.

Además de esta codificación basada en el enmascaramiento,  finalmente se aplica una codificación aritmética «Huffman» a los bits resultantes, similar a la que se realiza en una compresión «.zip». Este proceso no supondrá perdidas de calidad adicionales.

Calidad de sonido en los archivos MP3

Calidad en la codificación MP3

La calidad sonora de la compresión depende del tamaño que queremos que ocupe la canción comprimida, por lo tanto del bitrate que indiquemos a la hora de realizar la compresión. Si elegimos un bitrate alto, el algoritmo no se verá obligado a eliminar mucha información, por lo que eliminará detalles realmente inaudibles según las curvas de enmascaramiento. Pero si queremos que el archivo ocupe menos espacio y elegimos un bitrate más bajo, el algoritmo tendrá que ser más drástico superando las curvas de enmascaramiento más imperceptibles, y será inevitable que se note la pérdida de información.

Por ejemplo, en los MP3 a 128 kbps más comunes hace unos años, la calidad es perceptiblemente inferior al original para la mayoría de la gente, si se hace una comparación directa. En cambio, un archivo MP3 con el máximo bitrate de 320 kbps no pierde información apenas, y es prácticamente indistinguible del original en la mayoría de los casos.

Artefactos en la compresión MP3 de un aplauso

Para las compresiones con bitrates muy bajos de sonidos con grandes variaciones dinámicas y transitorias, es frecuente la aparición de artefactos sonoros como resonancias o pre-ecos. Un ejemplo representativo donde será posible que aparezcan estos artefactos cuando comprimimos con un bitrate muy bajo, sería un fragmento de aplausos ya que tiene grandes variaciones dinámicas.

¿Tasa de bits constante (CBR) o variable (VBR)?

El modo de codificación CBR significa que en todo momento el flujo de bits de un archivo  MP3 sea constante y prefijado. Esto quiere decir que el algoritmo de compresión no necesitará aplicar reducción de bits en algunos fragmentos aunque realmente podría hacerlo por haber sonidos enmascarados y prescindibles, y por lo tanto no será del todo eficiente respecto al tamaño del archivo resultante.

El modo de codificación VBR significa que el flujo de bits será variable y se podrá ajustar a las necesidades de cada fragmento. Es decir, aplicará la reducción de la resolución en todos los fragmentos en los que se considere que hay enmascaramiento, por lo tanto será más eficiente que el anterior.

En teoría el método de compresión VBR configurado a Máxima calidad, sería el optimo en la relación calidad/tamaño. Aunque si no se busca optimizar al máximo la reducción de tamaño, el método CBR con el máximo bitrate de 320 kbps, asegurará la máxima conservación de la información original posible, y por tanto será la configuración con la mejor fidelidad que podremos obtener de un MP3.

La importancia del Codec en la codificación

Logotipo del Codec LAME MP3

El estándar MP3 permite cierta libertad en el algoritmo de codificación y la aplicación de los criterios psicoacústicos, siempre y cuando el archivo resultante respete el estándar y se pueda reproducir.

Por tanto, en los software de creación de archivos MP3 podemos encontrar diferentes Codecs que realizarán la compresión con mayor o menor calidad.El más popular y valorado que incorporan por defecto la mayoría de los software de codificación es el codec LAME.

La importancia del archivo de origen en la creación de un MP3

Una de los errores más importantes a la hora de crear un archivo MP3 de calidad, aparte de elegir un bajo bitrate, es el de elegir un archivo de origen de mala calidad o, aún peor, un archivo comprimido previamente con un algoritmo con pérdidas! ya sea un MP3, OOG, M4A, etc… esto supone una reconversión, reducción de la calidad y aumento del ruido.

Para crear un MP3 de manera adecuada, el archivo de origen debería ser original, sin pérdidas previas (formatos lossless) como lo son los provenientes de las pistas de un CD, un .WAV, un .FLAC, etc…

Entonces, ¿aceptamos el MP3?

Sobre esto cada uno tendrá una opinión, expectativas y experiencias diferentes. En lo que parece que hay consenso tras varios años de hegemonía de esta compresión, es en que la percepción subjetiva de la calidad es drásticamente diferente dependiendo del bitrate, aunque todas sean MP3.

A partir de 192 kbps el usuario medio deja de distinguir el original del comprimido (usando como referencia el formato de CD a 44,1 KHz y 16 bits), y es a 320 kbps donde la codificación es dificilmente distinguible del original en la mayoría de los casos. No obstante, ni siquiera esta opción es suficiente en los ámbitos más exigentes, así que el debate está servido.

Acerca de Diego Ena

Desde siempre he tenido un gran interés por los fundamentos y curiosidades del sonido. Durante mis estudios tuve la suerte de poder hacer una especialización sobre audio, y aunque no me dedico profesionalmente a ello, a día de hoy sigo siendo un gran aficionado. Con este blog espero aportar mi granito de arena a la afición por el interesante mundo del sonido.

6 comentarios en “Cómo funciona la compresión MP3

  1. Hola Diego, muy bueno e interesante el artículo. Es un tema muy discutido y esta bueno que se aclaren las dudas. Siempre y cuando uno pueda permitirse tener la musica que nos interesa en la mejor calidad posible mucho mejor. Aunque admito que un mp3 a 320kbps aveces es bastante dificil darse cuenta la diferencia y hasta aveces comparandolo con un .wav directamente, pareciera que el .wav suena mejor, solo por el hecho de que nos condiciona psicologicamente jaja. Pero en fin, siempre usar la mejor calidad de compresión cuando de mp3 se trata y lo más importante, disfrutar, que si tu cancion favorita te llega, sea mp3 o wav, cumplió su objetivo! Un saludo y gracias por los articulos de »cosasdeaudio.com» que son super informativos.

  2. Muy bien Diego!.
    Es el tipo de información clara y precisa que necesitaba desde hace tiempo. Y aprovecho para lanzar una pregunta: prefijando la calidad de MP3, por ejemplo a 320, ¿cómo afecta si escuchamos con auriculares, en una minicadena , en un hi-fi de alta gama o en un escenario?.

    Mi mujer, que aprecia el arte gráfico más que el audio, no entiende mi lucha contra el MP3, y yo le digo: ¿pagarías por ir a un museo donde las obras están pixeladas?. La respuesta siempre es un rotundo NO. Por eso yo no consumo MP3 salvo una excepción: explorar para incorporar algo nuevo en mi discoteca personal.

    Un abrazo !

    1. Hola Jose!

      Me alegro que te haya resultado interesante! Y muy bueno el ejemplo que le pones a tu mujer para explicarlo! Pues la percepción subjetiva de la calidad del MP3 o la de los otros algoritmos con pérdidas seguro que daría para mucho… Al ser una cuestión subjetiva siempre hay diferentes opiniones, y aunque se intentan hacer pruebas y estudios científicos del tipo «doble ciego» para clarificarlo, los resultados no suelen cerrar el debate. La verdad es que si saco un tiempo, me gustaría algún dia intentar escribir sobre esto.

      Lo que seguro que todos estaremos de acuerdo es que a 128 kbps la mayoria de personas somos capaces de distinguir del original. A 320 la cosa no es tan clara, pocas personas lo hacen. Pero lo que yo opino es que todo aquel que somos críticos con el sonido, o tiene sensibilidad musical, si que es capaz de distinguirlo. Pero claro, en determinadas circunstancias! Cuando haya fragmentos o pasajes que tengan las frecuencias que manifiestan los efectos de la compresion MP3, como es la parte alta de los agudos y que puede percibirse un poco menos «fino», sutilmente metálico… o en fragmentos con mucha densidad espectral, donde MP3 aprovecha más el enmascaramiento para reducir la relación S/R en determinadas bandas de frecuencias, etc…

      Cuanto más alto es el bitrate, más dificil es discernirlo. Pero está claro que reducir una señal estéreo de resolución 44100 Hz y 16 bits por canal (o sea, de 1411 kbps) como lo es el CD, a tan solo 320 kbps, implica eliminar información sonora. Ya que incluso los mejores codecs sin pérdidas no consiguen ni reducirlo a la mitad (700 kbps) como promedio…

  3. Hola Diego, gracias por ésta publicación tan interesante y por aclararme como funciona la compresión mp3.

    El otro día miré una publicación de un Ing reconocido mundialmente dónde quiere que todos se unan para que el mp3 desaparezca, yo lo veo imposible.

    Los consumidores de música lo que quieren es pasarla bien, divertirse o mejorar su estado de animo, no les importa si es un mp3 o si perdió alguna cierta frecuencia, o si es comprimida o no.

    Lo que sí creo, es que deben haber más plataformas para quienes deseamos escuchar música en alta calidad como HDTracks.

    Un abrazo!

    1. Hola Alex!

      Muy de acuerdo contigo en que una gran parte de la gente lo unico que quiere es disfrutar con la música, y muchas veces el MP3 a cierta calidad ya se lo permite.

      Aunque también hay gente que disfruta algunos detalles más sutiles que MP3 puede llegar a alterar. Por suerte como bien dices hay algunas plataformas que ya ofrecen música codificada sin pérdidas o con resolución superior a la del CD. Esperemos que proliferen más. Quizás la gran expansión del los auriculares para móvil ayude a que más gente se apunte a valorar más la calidad de los formatos sin pérdidas, ya que escuchar con auriculares facilita mucho la percepción de los detalles, en comparación con los equipos de música más normales.

      Un abrazo!

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *