Imprimir Página - Comparativa de formatos utilizando un espectrograma

Título: Comparativa de formatos utilizando un espectrograma
Publicado por: adrigd en 05 de Enero de 2012, 06:57:21 PM

Inicio este post (e hilo) autocitándome de otro que abrí hace unas horas:

Me ha entrado la curiosidad, y en un ratillo entre estudios (que tengo los exámenes a la vuelta de la esquina), me he puesto a comparar formatos y bitrates con un espectrograma. Yo soy un profano en la materia, y no entiendo muy que muestran estos espectrogramas, pero he hecho una comparativa basada un poco en la lógica más básica. Parto de un archivo FLAC ripeado directamente de un CD. Después, partiendo de ese FLAC, comprimo en diferentes formatos y en diferentes bitrates. Comparo los espectrogramas.

Entiendo que cuanto más se asemeje el archivo comprimido al FLAC, mejor calidad tiene. ¿Voy bien? ¿O no tiene ningún sentido esto que digo? Lo comento porque estoy obteniendo unos resultados un tanto... desconcertantes, si lo comparamos con lo que se suele decir por los foros.

Así pues, no tengo ni idea de si lo que voy a decir exponer a continuación es una burrada, o por el contrario tiene cierto sentido. Como sé que hay gente por aquí que domina los aspectos técnicos mejor, agradecería que me aclararan la validez o no del asunto.

El caso es que hace unos días actualicé otra vez mi Galaxy S y le metí un nuevo kernel. El kernel en cuestión me gusta mucho por el consumo de batería, pero lamentablemente el móvil me ha dejado de reconocer los tags de mis pocos álbumes en AAC (todos los demás los lee bien). Por lo visto es un problema del kernel más que nada, y la solución sería volver al anterior, que consumía más y no quiero. Por eso decidí volver a comprimir los álbumes (partiendo de sus respectivos FLAC), en un formato que sí reconociera las etiquetas. Normalmente lo hago en MP3 por el soporte que tiene y porque me conozco y sé que a 320 Kb/s CBR no lo distingo de un FLAC en la mayoría de los casos (algunos sí, pero muy puntuales).

Así que barajé la posibilidad de convertir a Ogg, y por el camino consulta en Internet al respecto y acabé en este hilo de Head-Fi (http://www.head-fi.org/t/225356/lossy-audio-codecs-comparison-huge-amount-of-pics-itunes-update-on-p-7).

Me entró la curiosidad, y quise hacer mis propias pruebas con espectrograma.

Metodología

Muy simple: escojo una canción, en mi caso Year of the Cat de Al Stewart, que es un tema bastante complejo, con bastantes instrumentos y cierto ritmo.

Extraigo el tema del CD en formato FLAC, y a partir de ese archivo FLAC convierto con Easy CD-DA Extractor en diversos formatos con pérdida, a saber: MP3, AAC, OGG y WMA, con sus respectivas variantes (al menos algunas de ellas).

Después paso todos los archivos a WAV, porque el programa utilizado (Adobe Audition) no soporta todos los formatos. Dado que WAV es formato sin pérdida, aunque sea una reconversión, no se pierde calidad en el proceso.

Selecciono unos 5 segundos de la canción para que el análisis sea más preciso, y comparamos.

Algunos apuntes iniciales:

Algunos formatos los he analizado tanto en CBR como en VBR. Para los que no lo sepan CBR significa bitrate constante, siempre mantiene el mismo nivel de compresión y "de calidad". VBR es bitrate variable, el compresor estudia que partes de la canción son más complejas y ahí comprime menos, por lo que no se pierde tanta calidad en esas zonas.

He comprimido en altos bitrates, porque es lo que consumimos por aquí, pero si alguien quiere un bitrate específico, más bajo o más alto, que lo comente.

Dicho esto, comencemos:

El archivo original en FLAC:

(http://img825.imageshack.us/img825/7663/yearwav2.png)

Para los que no lo sepan, la banda superior se refiere al canal izquierdo y la banda inferior al derecho. Como se puede apreciar el FLAC "rellena" todo el espectro. No hay artefactos, no hay frecuencias recortadas. Todo está perfecto. Es un archivo sin pérdidas.

Veamos como quedan los diversos formatos con pérdida en comparación:

MP3 (Lame 3.99)

CBR 320 Kb/s

Es la máxima calidad que permite el formato MP3 con bitrate constante. Muchos de nosotros tenemos la música comprimida en este formato. Este es el espectrograma resultante:

(http://img252.imageshack.us/img252/7126/yearmp3cbr3202.png)

Como vemos, por encima de los 16 KHz hay un "recorte" importante en el espectro de frecuencias. Ya lo indicó elfary aquí alguna vez y aquí lo vemos. Nos estamos moviendo en sonidos muy agudos y muchos de nosotros no percibimos esa caída, pero es evidente que se produce con respecto al FLAC.

VBR 0

Esta es la máxima calidad de MP3 con bitrate variable. Está en torno a unos 260 Kb/s.

(http://img851.imageshack.us/img851/3773/yearmp3vbr02.png)

De nuevo nos encontramos con caídas hasta los 16 KHz. En realidad el resultado no es malo si tenemos en cuenta que el archivo reusltante pesa menos que el de MP3 CBR a 320 Kb/s y el nivel de información perdida es parecido.

AAC

Uno de los problemas que me he encontrado con AAC es que el término contiene un montón de formatos. El Easy CD-DA Extractor tiene unos específicos y el dBPowerAmp tiene otros. Al final he comprimido con ambos programas, ya que el dBPowerAmp tiene el Nero AAC, que esta muy reconocido.

Empezamos con el del Easy CD-DA Extractor:

CBR 320 Kb/s

Máximo bitrate que admite el formato con bitrate constante.

(http://img685.imageshack.us/img685/7008/yearaac2.png)

Considerablemente mejor que el MP3. No era ningún secreto. Pese a suprimir información cercana a los 18 KHz, el archivo resultante se mantiene bastante puro con respecto al original. Aunque he hecho tests con otros temas en los que el resultado era notablemente peor. De ahí una de mis sorpresas. (Lo postearé más adelante).

Nero AAC CBR 320 Kb/s

Como he dicho antes, se considera uno de los formatos de referencia dentro del AAC...

(http://img819.imageshack.us/img819/5856/yearneroaac3202.png)

... y sin embargo no tan bueno. Otra sorpresa, y un motivo más para creer en la posible poca validez de este análisis. Evidentemente el resultado es bueno, porque nos movemos en bitrates muy altos que aseguran la calidad, pero me esperaba más de un formato tan reconocido.

OGG

Software libre considerado siempre de gran calidad. El bitrate variable ha sido siempre uno de sus puntos fuertes, aunque también admite bitrate constante.

CBR (320 Kb/s)

(http://img580.imageshack.us/img580/5534/yearoggcbr3202.png)

Muy, muy bueno. Casi perfecto. Si alguien es capaz de distinguir esto de un FLAC tiene unos oídos prodigiosos. Comparado con el AAC CBR a 320 Kb/s las diferencias son pequeñas (aunque sale ganando el Ogg), pero en comparación con el Mp3 a igual bitrate, está bastante por encima (dentro de los límites de calidad en los que nos movemos).

VBR 8 (en torno a unos 256 Kb/s)

Sé que en el foro hay gente que lo utiliza, como getoblaster si no recuerdo mal.

(http://img267.imageshack.us/img267/3589/yearoggvbr82.png)

Muy buen resultado. Se advierte pérdida de información en torno a los 14 KHz, pero parece bastante anecdótica y no hay "recorte real" hasta los 18 KHz. Si tenemos en cuenta el nivel de compresión (en torno a 256 Kb/s), podemos decir abiertamente que estamos ante una de las mejores opciones a la hora de convertir.

VBR 9 (en torno a 320 Kb/s)

El siguiente escalón dentro del bitrate variable con Ogg. Tan solo tiene por encima al VBR 10.

(http://img51.imageshack.us/img51/7358/yearoggvbr92.png)

Prácticamente como el Ogg CBR a 320 Kb/s. Calidad altísima. Parece que elimina un poquito menos información que el Ogg CBR, pero la diferencia es, incluso desde un punto de vista objetivo, totalmente anecdótica.

WMA

El WMA siempre ha sido un formato algo denostado por la comunidad. Aunque objetivamente hablando es un hecho que ofrece en torno a un 25% más de calidad que el MP3 a igual bitrate, pronto se vio superado por el AAC y el OGG. Veamos que tal se comporta este formato:

WMA estándar CBR 320 Kb/s

(http://img576.imageshack.us/img576/3564/yearwmastdcbr3202.png)

Otra sorpresa. Pues parece que no es tan mal formato. A decir verdad el resultado es muy bueno, superior al del MP3 y cercano al del AAC y al del OGG ambos en igualdad de condiciones de bitrate. Evidentemente con estas dos opciones, apostar por WMA parece contradictorio, pero debemos recordar que es un formato más universal y que dado su comportamiento a altos bitrates, puede ser una muy buena opción.

WMA Pro 10 CBR 256 Kb/s

Incluyo este formato porque es la evolución del WMA. Es el formato lanzado por Microsoft para sonido de alta calidad 5.1 o incluso 7.1. Está optimizado para el vídeo, pero también funciona como "codec musical"

(http://img62.imageshack.us/img62/2281/yearwmaprocbr2562.png)

Y sí, el resultado es buenísimo. A 256 Kb/s el WMA Pro se comporta mejor que la mayoría de los formatos en CBR y a 320 Kb/s. No he podido ponerlo en este bitrate porque no lo admite, directamente pasa a 384 Kb/s y ya no estamos en el mismo nivel. Pero sin duda, a nivel de calidad-tamaño, el WMA Pro se me antoja bastante por encima para el resto de los formatos, y solo Ogg puede incordiarle. Lamentablemente su soporte es nulo. Salvo mi Galaxy S (que lo lee todo) y mi ordenador, no tengo ningún otro aparato en casa capaz de leer el archivo. Ni siquiera rockbox en el Sansa Clip+ parece capaz. Una pena viendo sus enormes cualidades.

Finalizando y conclusiones

Reitero de nuevo el hecho de que este análisis pueda ser totalmente nulo ya que no tengo mucha idea de la materia. Lo he hecho por curiosidad más que nada, y para aprender cosillas nuevas, por lo que cualquier recriminación, puntualización o lo que sea, será bien recibida.

También sé que quizás hubiera sido más interesante probar bitrates más bajos en donde sea más fácil apreciar las diferencias entre formatos. No os preocupéis: si alguno se confirma la validez de estos tests, encantado hago otros con archivos de peor calidad. Aunque no dudéis en hacerlos vosotros. No hace falta tener el Audition para hacerlos, el EAC o el Audacity tienen también espectrograma y son gratuitos.

Más tarde pondré los curiosos resultados obtenidos con AAC, que no mantiene el nivel de calidad tan regular como otros formatos como el Ogg o el WMA con otros temas musicales.

¿Qué podemos sacar en claro de esto? En el caso de que sea válido, tiene poca utilidad práctica porque a bitrates tan altos la mayoría somos incapaces de apreciar esos matices que se observan en las gráficas. El análisis responde más a la curiosidad que al pragmatismo. Sí es verdad que hay cosas interesantes, como el rendimiento del WMA Pro o del Ogg VBR 8.

Si me preguntáis con que formato me quedaría, y estudiando su soporte y calidad, escojo sin duda el Ogg en cualquiera de las versiones analizadas aquí. Deteniéndome sólo en calidad, el WMA Pro me parece el mejor con su moderado bitrate.

Y con esto me despido y os insto a que si tenéis alguna duda o queréis un determinado formato con un determinado bitrate, lo pongáis por aquí y os lo cuelgo (siempre y cuando, otra vez, no sean del todo nulos estas comparativas. ¿Qué? Me he columpiado ¿verdad?

Título: Re:Comparativa de formatos utilizando un espectrograma
Publicado por: D2Cowones en 05 de Enero de 2012, 08:16:12 PM

Muy interesante, gracias por la currada.

Una pregunta, los ficheros origen eran de un cd normal, es decir a 16/44? Lo digo por lo que comentas de ripear a bitrates más bajos para apreciar más las diferencias podría ser curioso, igual para verlo se puede hacer algo parecido pero elevando la cantidad de información en origen a ripear, pej con ficheros de un SACD a 24/96

saludos

Título: Re:Comparativa de formatos utilizando un espectrograma
Publicado por: adrigd en 05 de Enero de 2012, 08:27:06 PM

CD normal, 16/44

No tengo archivos a 24/96, aunque compré un álbum digital que me permite descargarlo en varios formatos, entre ellos a 24/96. El problema es que su uso es muy limitado, y no sé hasta que punto sería diferente de un Flac a 16/44. Si puedo lo descargo y lo compruebo.

De todas forma coge todo esto con pinzas. No sé hasta que punto es válido y lo más probable es que me haya equivocado en mil cosas. :empathy:

Título: Re:Comparativa de formatos utilizando un espectrograma
Publicado por: Giayrus en 05 de Enero de 2012, 08:36:04 PM

Aviso: tocho con mucho tecnicismo. Pasen al último párrafo si quieren ver la parte "importante".

Si pudieras poner un formato con compresión que no recorte frecuencias, te llevarías la sorpresa de que se ve prácticamente igual (es lo que yo según de lo que sé, que es más o menos la chapa recibida en varios años de carrera más una asignatura de tratamiento digital de voz, en la que entras más en los espectrogramas, aunque centrados en la voz). Estos análisis se hacen a partir de una forma de onda concreta, es como si cogieras el FLAC original o cualquiera de los formatos correspondientes y analizaras la forma de onda de sonido final que le vas a presentar a los auriculares. En tu caso lo has pasado todo a wav. Es la manera más fácil de analizarlo, puesto que un wav representa la forma de la señal tal cual, sin comprimir absolutamente nada, así que si tras codificar, vuelves a ese formato, es como cuando lo reproduces, que el reproductor se encarga de decodificarlo para entregarle a los auriculares lo que tienen que reproducir. Quiero decir que el espectrograma es un análisis sobre la señal de audio (en este caso, pero se pueden hacer espectrogramas de cualquier señal) cruda. Los cambios los deberías notar al ir píxel por píxel, y verías que alguna cosa sale distinta, puesto que, por las pérdidas, obviamente la señal de audio recuperada no es igual a la original, pero se le parece.

El espectrograma simplemente te coge un trozo de la señal de audio, le hace un análisis y te pinta una columna en la imagen, coge un trozo de igual duración pero desplazado hacia delante y hace lo mismo. Como no sé cuánto conoceis de esto, hay una cosa que se llama transformada de Fourier (en este caso es la versión discreta, puesto que trabajamos en digital) que te coge una señal cualquiera y "te dice" su distribución en frecuencias. Es la versión discreta la que se analiza y se "pinta".

Por ejemplo, con un instrumento en el que se está tocando una nota, a la frecuencia de dicha nota se le llama frecuencia fundamental, pero existen otras componentes al doble, triple, cuádruple... de dicha frecuencia, con mayor o menor importancia. Un violín y un saxofón que tocan la misma nota, tendrán las mismas componentes, pero estas tendrán a su vez distinta distribución de armónicos, lo que conforma lo que llamamos timbre. Aquí la distribución en frecuencias del sonido de un violín que está tocando un sol:
(http://intmstat.com/fourier-series/violin_sprectrum.gif)

Con tanto rollo, a lo que quiero llegar es a que si os fijais, todas las rayas horizontales de los espectrogramas que nos ha plantado adrigd están más o menos equiespaciadas pero se ven más amarillas las de abajo. Intuyo que mientras más amarillo, más intensidad tienen estas frecuencias, lo que es lógico, pues la mayoría de la "información" de cualquier sonido está en las frecuencias más bajas. Es por eso por lo que podríamos distinguir un violín o la voz de alguien a través del teléfono, que recorta todo por encima de los 4KHz (a diferencia de los 20-22 aproximados que recortan los formatos digitales de música). Total, que estos espectrogramas te dicen más o menos dónde se está recortando pero las partes no recortadas quedan por lo general bastante similares, salvo algún caso en el que la codificación modifique eso, ya que las técnicas son bastante complejas y aprovechan muchas características del sonido para comprimirlo, incluidas las características del oido humano. Por lo que veo, el MP3, por ejemplo, recorta cuando tiene claro que no va a estropear mucho (quita detalles a partir de 16K) pero cuando no lo tiene tan claro lo deja igual (si os fijáis en las zonas que son como barras gordas verticales, que seguramente pertenecerán a "ruidos", vamos, a eses en la voz, a golpes de batería...).

Es posible que no os hayáis enterado de mucho, me disculpo por ello, he intentado que quedara claro, pero ya tengo tanta deformación por la carrera que esto me parece bastante entendible si se lo explico a alguno de mis compañeros y no sé para quien no esté tan enterado si le es fácil pillarlo. En resumen, en mi humilde opinión (que sé de señales pero no tanto de audio, aún) diría que el análisis es válido en cuanto a que se fija en cuánto se parece el espectrograma original a los resultantes a codificar, pero no es más que otra medida subjetiva, puesto que empleas la vista, la cual no puede medir exactamente qué ha pasado. Eso si estás buscando detectar qué calidad conserva el audio, si quieres ver qué le ha hecho el formato a las frecuencias, se ve claramente.
Creo que si coges el wav, y haces que represente el audio con un bit menos por muestra (pon que reserva 16 bits para cada una de las 44100 muestras que coge por segundo, e intentas representar eso con 15 en lugar de 16), es posible que no notes diferencia alguna, y tal vez con 8 se vea algo muy parecido. Voy a ver si pongo algún ejemplo con wavesurfer, el programa que usé en el hilo de la canción de Adele con el fallo, pero ahora no, que me tengo que bajar alguna canción sin pérdidas para verlo, o podría grabar algo con mi voz, aunque tiene mucho menos detalle que 5 instrumentos sonando a la vez.

Título: Re:Comparativa de formatos utilizando un espectrograma
Publicado por: adrigd en 05 de Enero de 2012, 09:02:02 PM

Muy interesante esto que dices.

Evidentemente sabía que había mucho más detrás de una conversión que un simple "recorte" de frecuencias, pero me parecieron curiosas estas variaciones en el espectrograma. Sobre todo porque normalmente una de las cosas que se le suele achacar al MP3 y que se le pone como "contra" es esa "caída" que tiene a los 16 KHz y al verlo yo directamente con uno de mis temas, me interesé en pasar al resto de formatos por el mismo filtro.

También he visto comparativas con tablas de respuesta de frecuencia, no espectrogramas. En ese caso, ¿nos encontraríamos ante el mismo problema? ¿únicamente veríamos como se ha "recortado" el sonido? ¿O por el contrario darían más información?

En cuanto a tu primera información: un formato con compresión que no recorte frecuencias, ¿no sería un formato de compresión sin pérdida? Porque en ese caso es lógico que se vea igual. Un mismo archivo convertido en WAV, FLAC o APE se ve igual siempre. La pérdida de información requiere quitar datos, recortar frecuencias, ¿no es así?

Título: Re:Comparativa de formatos utilizando un espectrograma
Publicado por: Giayrus en 06 de Enero de 2012, 06:43:04 AM

A ver, todo produce pérdidas si quitas información. Por ejemplo, en el caso de usar menos bits por muestra, estás quitando una información irrecuperable, eso entiendo yo por pérdidas, en general, ya que se puede aplicar a imágenes, sonido... Si recortas en frecuencias, también, es algo que no puedes recuperar tal y como era al principio.
En el caso de usar (pongamos por ejemplo) 8 bits por muestra y pasar a 7 (se suele hacer en múltiplos de 8, de byte).
Si tu tienes una muestra que vale, por ejemplo, 57 (00111001 en 8 bits) y recortas a 7, quitas el 1 del final y te quedas con 0011100. Si valiera 56, que es 00111000, y quitas un bit, te queda también 0011100 y al volver a 8 bits ambos te darían 00111000. Cuando antes diferenciabas entre 57 y 56, al haber quitado un bit, no puedes diferenciar entre ambos valores originales, pierdes detalle. Si lo haces en imagen, en un píxel, es parecido, puedes representar más valores en una escala de grises, por ejemplo, y con más detalle mientras más bits tengas.
Por lo que veo en Wikipedia, la definición de "formato de compresión con pérdida" es aquella que representa una información con menor cantidad de ella, con menos detalle.
Para los formatos que me comentas, el WAV, que es el más simple (y el único que sé exactamente cómo funciona), si tú coges un WAV, y le cambias la velocidad de muestreo (de 44100 a 22050), tendrás la mitad de kbps, y habrás recortado en frecuencia. Básicamente si antes tenías hasta 22KHz ahora tienes hasta 11KHz. Si ahora, en lugar de cambiar la velocidad de muestreo, pasas de 16 bits a 8, estás también recortando los kbps a la mitad, pero sin recortar frecuencias, recortando detalles. En ambos casos te da lo mismo: 22050*16 = 352800bps y 44100*8 = 352800bps. Con esto quiero decir que a mi parecer, pérdidas las hay siempre que no mantengas el original

Título: Re:Comparativa de formatos utilizando un espectrograma
Publicado por: adrigd en 06 de Enero de 2012, 07:36:43 AM

Obviamente, claro. Los formatos de compresión sin pérdida lo que hacen es reconstruir el archivo original al codificar. Sin embargo me llama la atención eso que comentas del WAV. Si al WAV le bajas a los 22050 estás recortando, y por tanto perdiendo información, por lo que ya no se le podría llamar "compresión sin pérdidas. Por tanto los formatos como el FLAC, el WAV o el APE son formatos sin pérdida en tanto en cuando mantengan las velocidades de muestreo y la profundidad de bits del archivo original. Mientras que en los formatos con pérdida la pérdida de calidad viene dada por al tasa de bits principalmente

Título: Re:Comparativa de formatos utilizando un espectrograma
Publicado por: Giayrus en 06 de Enero de 2012, 07:51:02 AM

A ver, una cosa es formato sin pérdidas y otra cosa es pérdidas. El formato sin pérdidas lo que tiene es que te guarda tal cual el audio desde la fuente que le proporciones. No realizan algoritmos que busquen redundancia, partes de la música con menor detalle, no recortan frecuencias por sí solos... Sin embargo, tienen ciertas características como las que he dicho, la tasa de muestreo, la cuantificación en bits por muestra... son formatos tontos, si tú le das la señal más simple que te puedas echar a la cara, te la va a guardar tal cual, aunque sea una señal que vale o 0 o 127 (por poner un ejemplo), para la que se necesitaría realmente 1 bit por muestra, el formato te lo guarda con sus 8/16/24/losquesean bits. Por lo tanto, estos formatos te van a guardar el sonido tal cual. Si tú coges un mp3 de 128 y lo pasas a WAV, y le das las mismas características (muestras/segundo y bits/muestra) que a un wav obtenido directamente de un cd original, te va a quedar del mismo tamaño, pero sin embargo, va a tener mejor calidad el 2º.
Los formatos con pérdidas llevan implícitas las pérdidas, tendrán su correspondiente compresión irreversible que los caracteriza. Los formatos sin pérdidas te guardan tal cual lo que les des, tenga el detalle que tenga.

Título: Re:Comparativa de formatos utilizando un espectrograma
Publicado por: adrigd en 06 de Enero de 2012, 08:07:38 AM

A lo que me refería es que el algoritmo de los formatos sin pérdida (si no recuerdo mal) comprimen de forma reversible, reconstruyendo los datos en la decodificación, que es algo que no hacen los formatos con pérdida. Lo que no entiendo es por qué un formato de estos sin pérdida permite alterar la tasa de muestreo o la profundidad de bits. Me parece contradictorio, ya que en el momento en que alteras estos datos con respecto al original, alteras obviamente la señal resultante, cuando el objetivo principal de estos formatos es mantenerla intacta. ¿No sería más lógico que comprimieran adecuándose a las características del archivo original?

Edit1: A todo esto: ¿habría una forma objetiva de determinar como afecta una compresión a un determinado formato? Porque todos los tests mínimamente técnicos que he visto utilizan solo los espectrogramas y las respuestas de frecuencias para valorar los diferentes formatos. Evidentemente todo esto desde un punto de vista teórico, ya que en la práctica y en el plano personal un test ABX es más que suficiente para determinar que formato y que bitrate prefieres.

Edit2: Dado que todos los formatos con pérdida recortan frecuencias, ¿un espectrograma podría servir para saber si un FLAC descargado de Internet es falso?

Título: Re:Comparativa de formatos utilizando un espectrograma
Publicado por: Giayrus en 06 de Enero de 2012, 08:39:28 AM

No sé los demás formatos sin pérdidas, pero WAV no comprime, de hecho el nombre viene de waveform, así que lo guarda tal cual.
De todos modos, la clave está en una palabra que has dicho: reversible. Se pueden emplear técnicas de codificación irreversibles que mantienen la calidad, como la asignación de los valores de amplitud de señal a bits, que puede ser lineal, logarítmica... y normalmente no se puede volver de una a la otra sin modificar la señal. Por lo general, las operaciones irreversibles paulatinas degradan una señal, porque son como añadirle ruido. Pero voy a dejarme de mandangas: la compresión con pérdidas se refiere a irreversibilidad a lo bruto, es decir, cortando, cambiando tasas binarias (como el VBR)... Lo de bajar la cuantificación o recortar frecuencias (en teoría de señal es necesaria para hacer lo de disminuir las muestras por segundo, si te fijas si el audio va hasta 22KHz las muestras por segundo son 44100, más o menos el doble) no es compresión como la consideramos, se le llama submuestreo o cambio de cuantificación, y lo haces tú a mano con programas, no es ningún algoritmo automático. El wav no tiene siempre las mismas características, ni hace falta que las tenga, se cambian en función de las necesidades. Por ejemplo, si quieres guardar una conversación telefónica, no necesitas 44100, con 8000 te bastaría, así que es absurdo usar más. Igualmente puede ser mono o estéreo... hacer cuantificación lineal o logarítmica... digamos que cambia la manera de almacenar, y como en todo lo digital, normalmente esos cambios son irreversibles, aunque no tienen por qué bajar la calidad.
En resumen, que doy muchas vueltas, y yo veo esta conversación más fácil de tener de forma instantánea, no con parrafadas, que los formatos de compresión sin pérdidas (algunos comprimirán, otros no, como WAV) guardan un sonido tal cual se lo das, aunque hacen que ocupe menos con técnicas que no degradan (piensa en los RAR, ZIP... con ellos recuperas los archivos que metiste, y si te fijas, si comprimes un documento muy largo en txt te baja un montón de tamaño pero si se lo haces a un mp3 no, porque ya se ha comprimido bastante). El WAV es sin pérdidas pero no comprime. Ahora, si tú te encargas de darle menor detalle, ocupa menos, pero también tiene menos cálidad, digamos que no has perdido nada que no hayas querido tú perder.

Título: Re:Comparativa de formatos utilizando un espectrograma
Publicado por: Giayrus en 06 de Enero de 2012, 08:52:19 AM

Cita de: adrigd en 06 de Enero de 2012, 08:07:38 AM
Edit1: A todo esto: ¿habría una forma objetiva de determinar como afecta una compresión a un determinado formato? Porque todos los tests mínimamente técnicos que he visto utilizan solo los espectrogramas y las respuestas de frecuencias para valorar los diferentes formatos. Evidentemente todo esto desde un punto de vista teórico, ya que en la práctica y en el plano personal un test ABX es más que suficiente para determinar que formato y que bitrate prefieres.

Edit2: Dado que todos los formatos con pérdida recortan frecuencias, ¿un espectrograma podría servir para saber si un FLAC descargado de Internet es falso?

Al edit 1: objetiva por ejemplo sería coger la original en formato crudo y comprimida y tener las formas de onda con las mismas características (por ejemplo en un WAV) y calcular el error cuadrático medio, por ejemplo (restar ambas señales, si no la hubieras modificado nada en absoluto, te daría una señal que vale 0 todo el tiempo, elevar cada muestra al cuadrado para que si algunas son negativas y otras positivas no se anulen entre ellas, lo que daría un error falseado porque te podría dar cero aunque no fueran las señales iguales, sumarlas y dividir todo entre el número de muestras, y hacer la raíz cuadrada). Es la medida más típica de error, y mientras más alta sea, menos se parece la señal nueva a la original. Lo que pasa es que como en todo, subjetivamente puede existir el caso de tener más error y que suene mejor, ahí entran las técnicas de compresión que inteligentemente se aprovechan de eso para disminuir al máximo el tamaño del audio y que lo notemos lo menos posible.

Al edit 2: valdría siempre y cuando supieras cómo es el original, o tuvieras datos de él. Si el que lo grabó lo hizo grabando hasta 16KHz pues el flac saldrá así, aunque como por lo general podemos suponer que no es así, que la música se graba hasta 22KHz más o menos siempre y deberías ver un FLAC completito hasta ahí. Si te fijas en todos los espectrogramas, tienen huecos en las frecuencias superiores, más o menos, y lo que veo es que el AAC es el que menos elimina, pero seguramente ocupe algo más también.

Aviso: lo explico todo al detalle porque habrá gente que entienda más o menos de matemáticas, señal...

Título: Re:Comparativa de formatos utilizando un espectrograma
Publicado por: adrigd en 06 de Enero de 2012, 09:07:02 AM

Lo curioso del AAC es que me he encontrado que es el formato que recorta frecuencias de forma más irregular. Con el tema anterior se comporta estupendamente, sin embargo si utilizamos otro tema vemos lo que pasa:

FLAC

(http://img834.imageshack.us/img834/5982/crisomwingswav2.png)

AAC CBR 320

(http://img201.imageshack.us/img201/8513/crisomwingsaac2.png)

OGG CBR 320

(http://img3.imageshack.us/img3/2276/crisomoggcbr3202.png)

El Ogg se mantiene más regular a la hora de recortar frecuencias. Y esto es una constante en los temas que he probado. El AAC me parece el formato más desconcertante en este sentido.

Título: Re:Comparativa de formatos utilizando un espectrograma
Publicado por: Ghetto en 06 de Enero de 2012, 06:36:54 PM

Lo cierto es que acabé por usar MP3 lame a 320 con bibrate constante por la incompatibilidad del OGG con muchos repros... pero no me importaría pasar mis FLAC al mejor formato con perdidas si es compatible con todos los repros... el AAC lo es¿? de serlo... el conversor del Itunes es "de los buenos?" , si convierto mis FLAC a AAC con el Foobar 2000 estaría pasandolos al mejor AAC que existe actualmente?

adrigd gran hilo este, a mí me interesa muchísimo :dios:

Saludos.

Título: Re:Comparativa de formatos utilizando un espectrograma
Publicado por: adrigd en 06 de Enero de 2012, 07:06:37 PM

De los más famosos, el OGG está considerado, junto con el AAC, el mejor compresor con pérdidas. Incluso algunos dicen que es superior al AAC si se utiliza el encoder AoTuV, pero esto solo se ve a bitrates medios, en torno a 160-170 Kb/s, en donde el OGG codificado con ese encoder se comporta extremadamente bien (a bitrates más altos es difícil percibir diferencias entre uno y otro incluso de forma objetiva).

En realidad todo depende del encoder utilizado, es el que determina la calidad final, no la extensión del archivo. El que acabe en .aac, .m4a, .ogg, .mp3, .wma no dice realmente nada porque desconocemos como se ha codificado ese archivo (a no ser que lo hagamos nosotros). En MP3 el Lame en su última versión tiene buena reputación, pero es sabido que el Blade es aún mejor encoder, de primer nivel diría yo. En el sector "audiófilo" un archivo .wma seguramente no llame mucho la atención, pero si ese archivo ha sido codificado con WMA Pro 10, la cosa realmente cambia porque está demostrado que el WMA Pro 10 da, hoy día, uno de los mejores resultados (algunos dicen que el mejor). Y lo mismo ocurre con el AAC, si el encoder no es bueno, el resultado no será bueno, por mucho AAC que sea.

Hay que tener en cuenta que mucho de lo que se comenta en torno a los formatos es herencia de años pasados. Tanto el MP3 como el WMA son considerados "formatos antiguos", mientras que el AAC y el OGG pertenecen a los "nuevos formatos". En cierto modo hay algo de razón en todo esto, porque tanto el AAC como el OGG nacen con el mismo propósito: superar a formatos de compresión con pérdida como el MP3 y el WMA. Y lo consiguen... al principio. Porque tanto el MP3 como el WMA no son hoy lo que eran antaño. Han aparecido nuevos encoders que los han mejorado mucho. Los formatos se actualizan y se autofecundan: las mejoras de uno las incorpora el otro y viceversa.

Creo que en Hydrogenaudio leí a un usuario que decía algo así como: año 2008, el año en que todos los formatos con pérdidas se hicieron "transparentes" a X bitrate (no recuerdo la cifra). Con transparente se refiere a la calidad alta, a ese punto en el que no somos capaces de distinguir entre un formato con pérdida y otro sin pérdida. Y creo que tiene razón. Los codecs y los encoders modernos están muy avanzados y hoy día optar por uno u otro a cierto nivel de bitrate, es anecdótico y responde más a preferencias o manías personales. En donde aún hay diferencias es a bitrates más bajos, como esos 160 Kb/s en los que OGG codificado con AoTuV, o el AAC bien codificado demuestran su superioridad por encima de la mayoría.

Edito: Getoblaster, en respuesta directa a tus preguntas e hilando con lo anteriormente expuesto, te comento que tradicionalmente la compresión que hace Itunes siempre ha sido criticada, y en general todos los usuarios que han utilizado AAC han optado por otros programas para comprimir y otros encoders, por considerarlos superiores. Subrayo lo de tradicionalmente porque volvemos a lo mismo: a saber cuando se originó esa afirmación. En Apple no son tontos y si ven que el compresor del Itunes está dando problemas y que está siendo superado por otros, lo lógico es que investiguen qué ocurre, que mejoras se han producido, y las incorporen a su programa/encoder. Estoy casi seguro que el encoder del Itunes ya está totalmente puesto al día.

Si tu pregunta es "¿Ogg o AAC? o ¿Es el AAC el mejor formato?" Habría que responder con otras preguntas: "¿A qué bitrate? ¿Con qué encoder?" Y si estás pensando (como creo yo) en comprimir a altos bitrates, la respuesta es clara: ninguno, todos. Si el OGG recorta al comprimir por encima de los 18 KHz y el AAC también lo hace, pero en zonas distintas (que es lo que suele ocurrir en los bitrates más altos), ¿cuál es mejor?

Lo primero que tienes que ver es que formatos aceptan tus reproductores. ¿Tienes problemas de soporte con el OGG? Cámbiate; mira a ver que formatos soportan tus reproductores y escoge el que más te convenga. A esos niveles tan altos de bitrates casi seguro que lo mismo te da que sea MP3, AAC u OGG. Haz un test ABX y compruébalo si no estás seguro. Son muy útiles y te permiten ver hasta que punto necesitas más o menos bitrate.

Yo utilizo una amalgama de formatos muy amplia, pero últimamente tiendo a convertir a OGG VBR q 8.5 con AoTuV. En pruebas ABX no he encontrado diferencias con FLAC incluso a bitrates más bajos, pero dado que no ando escaso de espacio me permito el lujo de subir un poco la tasa de bits.

Título: Re:Comparativa de formatos utilizando un espectrograma
Publicado por: Inox en 07 de Enero de 2012, 03:56:53 AM

Felicidades por intentar un análisis que los profanos podamos, al menos en inicio, comprender. He de reconocer que a la 3ª o 4ª respuesta ya me había perdido, pero refleja de forma muy gráfica como va lo de los formatos.
En todo caso creo que no llego ni a 11.000 hertz (http://onlinetonegenerator.com/hearingtest.html (http://onlinetonegenerator.com/hearingtest.html), por lo que casi me da igual el formato en que se comprima.
O.T. Por curiosidad, ¿qué kernel le has instalado al Galaxy? Después de usar varios he vuelto a Froyo, más para evirtar FC´s que por el tema de la batería, pero echo de menos dos o tres detallitos para que sea el ideal.
Saludos.

Título: Re:Comparativa de formatos utilizando un espectrograma
Publicado por: adrigd en 07 de Enero de 2012, 06:17:44 AM

Yo estoy con Gingerbread 2.3.6 y Kernel CF-Root, es igual que el Kernel de stock con alguna mejora puntual y rooteado.

Título: Re:Comparativa de formatos utilizando un espectrograma
Publicado por: Ghetto en 07 de Enero de 2012, 07:39:26 AM

Gracias por la respuesta adrigd,

Efectivamente, la compresión sería al máximo bibrate posible... para mí ya es un "sacrificio" no llevar mi música en FLAC o incluso WAV que es como la llevaba en mi EX-Ipod 6G, puede sonar a frikada o algo pero yo soy así de maniatico con la música... ya me costó mucho en su momento decidirme a comprimir a OGG pero al final su calidad me hizo apostar por la compresión para repros de 40 gigas para abajo.

Entonces básicamente la recomendación sería cualquier formato si estoy utilizando 320 lame CB no?, ahora mismo tengo los 3 repros de mi firma pero el tener que llenar el Ipodnazo me hace replantearme a que formato seguir comprimiendo mi música... sigo con el MP3? o me paso a OGG, AAC?¿ el Iriver y el Fuze admiten OGG?¿?

Título: Re:Comparativa de formatos utilizando un espectrograma
Publicado por: adrigd en 07 de Enero de 2012, 07:51:27 AM

Antaño, el OGG era un formato muy restrictivo por el poco soporte que tenía entre los aparatos, pero los tiempos cambian y a día de hoy, y exceptuando a compañías como Sony o Apple, que son muy suyos, prácticamente todo el mercado soporta OGG en sus diferentes variantes; y sí, tanto el Fuze como el Iriver lo soportan.

En tu caso, sin embargo tienes un Ipod, por o que el OGG puede no ser una buena opción porque no te lo va a leer. Si optas por AAC el problema lo tendrás con el Fuze (no sé el Iriver), a no ser que lo tengas con rockbox. Por tanto el formato que yo escogería sería el MP3.

Título: Re:Comparativa de formatos utilizando un espectrograma
Publicado por: Jacm_ en 07 de Enero de 2012, 08:22:28 AM

Muchas gracias Adrigd (y también a Giayrus) por el análisis. :aplaudir:

Por mi parte, siendo profano en la materia me gusta mucho encontrar hilos así para aprender la parte técnica de nuestro hobbie y entender mejor lo que escuchamos.

Título: Re:Comparativa de formatos utilizando un espectrograma
Publicado por: meteos en 07 de Enero de 2012, 09:07:05 AM

Cita de: adrigd en 06 de Enero de 2012, 07:06:37 PM
En MP3 el Lame en su última versión tiene buena reputación, pero es sabido que el Blade es aún mejor encoder, de primer nivel diría yo.

Esto me ha dejado bastante sorprendido, porque siempre he tenido entendido que Blade era uno de los peores encoders de mp3 existentes, produciendo distorsiones en los archivos codificados con el mismo.

He ido a comprobar si había aparecido recientemente alguna versión nueva, pero no, sigue abandonado el proyecto desde 2002, cuando su creador dijo que no iba a desarrollar más Blade, dado que Ogg Vorbis ofrecía más calidad.

En este hilo de hydrogenaudio http://www.hydrogenaudio.org/forums/index.php?showtopic=53707&st=0 (aunque si se busca en esa página se encontrarán muchos más) se menciona por Rayden:

The reason why Blade (nowadays an obsolete MP3 encoder) is described as "almost perfect" is the lack of a
proper psychoacoustic model. Blade (and Shine, too) just encodes without exploiting the characteristics of
human hearing.,,,
Vorbis on the other side probably does just that, what explains the somewhat ugly frequency graph.

Y más interesante por parte de 2Bdecided (desarrollador de ReplayGain):

I don't understand why people don't understand it! It is not complicated...

The graph is so low resolution that it's easy to make a file which sounds clearly different from the source, but produces an identical looking graph.

Conversely, it's easy to encode a file where the changes are inaudible, but are clearly visible on the graph.

This proves that the graph doesn't reflect what you hear.

Now, if you really understand this stuff, you might be able to make some predictions from the graphs. You might, for example, be able to dismiss some visual differences because you understand psychoacoustics and know they'll be inaudible. You might also be interested in what the graphs reveal about the internal workings of the codecs (audible or not).

However, even the brightest and most clued up person here isn't going to be able to look at a graph which looks the same, but represents something which sounds different, and say "that will sound different"!

Básicamente dice que el gráfico está a tan baja resolución que es posible hacer un archivo que luce gráficamente casi idéntico pero que suena completamente diferente. Y viceversa, se puede crear un archivo casi idéntico al original pero los cambios sean apreciables en el gráfico.

En definitiva, elfary tiene razón respecto a AAC y demás codecs modernos que comprimen usando un modelo psicoacústico similar al del oído humano, y por supuesto no recomendaría usar un codec totalmente desfasado y abandonado por su desarrollador desde hace 10 años, como es el caso de Blade, que además carece de muchas características modernas y su propio autor no recomienda su uso.

De usar mp3 lo lógico es un codec como Lame que se ha ido desarrollando y perfeccionando con los años, pero que ya en 2001-2002, cuando todavía se hablaba de Blade, Lame era superior a este.

Título: Re:Comparativa de formatos utilizando un espectrograma
Publicado por: adrigd en 07 de Enero de 2012, 09:17:00 AM

Ups! Pues ahí me he colado. Gracias por el apunte meteos. Entonces no sé que encoder de MP3 leí que era muy bueno. :think:

Título: Re:Comparativa de formatos utilizando un espectrograma
Publicado por: Ghetto en 07 de Enero de 2012, 09:39:25 AM

Juer cuanto estamos aprendiendo en un momento jeje.

Tanto el Fuze como el Iriver los utilizo con Rockbox... por lo tanto podría servirme el AAC pra los tres repros no? pero realmente notaría algo convirtiendo a AAC de la máxima calidad en vez de a MP3 Lame 320CB? también podría dejar lo que ya tengo en MP3 y lo nuevo pasarlo a AAC si es superior :think:

Título: Re:Comparativa de formatos utilizando un espectrograma
Publicado por: adrigd en 07 de Enero de 2012, 09:50:06 AM

Para saber si notas uno u otro, haz un test ABX.

Si no, el AAC tiene fama de ser mejor codec, pero como te digo han evolucionado mucho.

Título: Re:Comparativa de formatos utilizando un espectrograma
Publicado por: Inox en 07 de Enero de 2012, 01:29:56 PM

Cita de: adrigd en 07 de Enero de 2012, 06:17:44 AM
Yo estoy con Gingerbread 2.3.6 y Kernel CF-Root, es igual que el Kernel de stock con alguna mejora puntual y rooteado.

Gracias; voy a probarlo.

Título: Re:Comparativa de formatos utilizando un espectrograma
Publicado por: Chordeater en 24 de Enero de 2012, 08:54:18 AM

Hola chicos,

hacía un montón que no me pasaba por aquí. Como la colección de música sigue creciendo, me he planteado volver a comprimirla con un bitrate más bajo para que me quepa más en el repro. He leído este post y lo primero es agradeceros toda la información, rigurosa y bien presentada. Chapó.

Actualmente uso Oggenc2.87 con libVorbis v1.3.2 y compresión q7 (224kbps), pero estoy valorando pasar los FLACs a Oggenc2.87 con aoTuVb6.03 y compresión q6 (192kbps). En su día hice pruebas entre FLAC y ogg q7 igualando niveles con ReplayGain, y sin saber qué estaba sonando en cada momento no pude distinguirlos. Ahora volveré a hacer lo mismo (y os lo contaré), pero me apetece comentarlo en el foro a ver qué os parece y aprovechar para saludaros!!

:chocala:

Título: Re:Comparativa de formatos utilizando un espectrograma
Publicado por: silverius en 24 de Enero de 2012, 10:51:27 AM

Sisis, dinos que tal, a ver como te salen las pruebas. La verdad, el Aotuv para bitrates bajos es estupendo, yo estoy aún flipando con la calidad que da...
Además, al ritmo que voy, en breves los 36Gb de mi Clip+ se van a quedar en nadaaaa, asi que tu prueba va fabulosa.

Saludos

Título: Re:Comparativa de formatos utilizando un espectrograma
Publicado por: adrigd en 24 de Enero de 2012, 01:36:34 PM

Cita de: silverius en 24 de Enero de 2012, 10:51:27 AM
Sisis, dinos que tal, a ver como te salen las pruebas. La verdad, el Aotuv para bitrates bajos es estupendo, yo estoy aún flipando con la calidad que da...
Además, al ritmo que voy, en breves los 36Gb de mi Clip+ se van a quedar en nadaaaa, asi que tu prueba va fabulosa.

Saludos

Eso es lo primero que noté yo. Tenía una microSD de 16 GB petadísima de música. No me cabía más, así que compré una de 32 GB. Y sin embargo, después de comprimir mi música a OGG VBR q8 con AoTuV, me he dado cuenta que no ocupo más de 9-10 GB. No me arrepiento de comprar la de 32, pero aún así me la podía haber ahorrado sin problemas.

Título: Re:Comparativa de formatos utilizando un espectrograma
Publicado por: silverius en 24 de Enero de 2012, 01:46:04 PM

Hombre, yo estoy encantado con mis 32Gb... más que nada porque aun me sobra espacio, unos 8Gb y tengo metida casi toda mi colección, que en flac (y lo que no es flac) pesa 82Gb. Pero estoy tratando de mejorarle la calidad y entre lo que ripeo, compro y bajo... va subiendo a una velocidad... más claro está, todo lo nuevo que voy descubriendo, que últimamente es mucho.

Esto es como cuando nos compramos ese primer disco duro de 120Gb, pensamos, no lo llenamos ni locooooooooos y ahora no te da para nada :D

Título: Re:Comparativa de formatos utilizando un espectrograma
Publicado por: Chordeater en 24 de Enero de 2012, 03:15:43 PM

Pues acabo de realizar las pruebas con q6 y FLAC y los resultados son curiosos, no me lo esperaba. He usado primero aoTuVb6.03 q6 y resulta que he acertado 15 de 16 8-O (ahí lo dejé) ... a ver, con auriculares (Senn HD201) bien ecualizados, silencio absoluto y superconcentrado, me ha resultado difícil en el sentido de tener que repetir varias veces ambos samples hasta determinar cuál era cuál.

He vuelto a hacer la prueba con libVorbis v1.3.2 q7 (que es como tengo todo comprimido) y enseguida he visto que acierto o fallo aleatoriamente, es decir, no los distingo ... ya había perdido la fe en comprimir a q6, pues incluso volví a probar y acerté 5 de 5. Cuando ya iba a desistir me dió por probar libVorbis v1.3.2 q6 ¡Y NO HE CONSEGUIDO DISTINGUIRLO DEL FLAC!

Es decir, algo hace aoTuVb6.03 q6 que me permite distinguirlo del FLAC, pero sin embargo el q6 que proporciona libVorbis v1.3.2 no lo puedo diferenciar del FLAC. Así que mi recomendación es usar este codec: http://www.rarewares.org/dancer/dancer.php?f=326

Título: Re:Comparativa de formatos utilizando un espectrograma
Publicado por: silverius en 24 de Enero de 2012, 05:23:37 PM

Cita de: Chordeater en 24 de Enero de 2012, 03:15:43 PM
Pues acabo de realizar las pruebas con q6 y FLAC y los resultados son curiosos, no me lo esperaba. He usado primero aoTuVb6.03 q6 y resulta que he acertado 15 de 16 8-O (ahí lo dejé) ... a ver, con auriculares (Senn HD201) bien ecualizados, silencio absoluto y superconcentrado, me ha resultado difícil en el sentido de tener que repetir varias veces ambos samples hasta determinar cuál era cuál.

He vuelto a hacer la prueba con libVorbis v1.3.2 q7 (que es como tengo todo comprimido) y enseguida he visto que acierto o fallo aleatoriamente, es decir, no los distingo ... ya había perdido la fe en comprimir a q6, pues incluso volví a probar y acerté 5 de 5. Cuando ya iba a desistir me dió por probar libVorbis v1.3.2 q6 ¡Y NO HE CONSEGUIDO DISTINGUIRLO DEL FLAC!

Es decir, algo hace aoTuVb6.03 q6 que me permite distinguirlo del FLAC, pero sin embargo el q6 que proporciona libVorbis v1.3.2 no lo puedo diferenciar del FLAC. Así que mi recomendación es usar este codec: http://www.rarewares.org/dancer/dancer.php?f=326

Whaaat, me acabas de dejar pillado... que programa utilizas para la conversión? Yo uso el que tu has colgado, oggenc 1.4.0 con aotuv b6.03 no vaya a ser eso. Haré la prueba a ver que tal... pero vamos, todo el mundo da como superior aotuv y mi experiencia personal también... antes con libvorbis no quedaba del todo satisfecho, nose

Audio Portatil, Reproductor MP3 y auriculares

General => Aspectos técnicos => Mensaje iniciado por: adrigd en 05 de Enero de 2012, 06:57:21 PM