270 likes | 667 Views
Principios de. Audio Digital. Codificación Perceptual. La percepción acústica humana tiene lugar en dos dimensiones: frecuencia e intensidad . En el dominio de la frecuencia, el oído humano es capaz de percibir frecuencias en el rango de los 20 hasta los 20.000 Hz
E N D
Principios de Audio Digital
Codificación Perceptual La percepción acústica humana tiene lugar en dos dimensiones: frecuencia e intensidad. En el dominio de la frecuencia, el oído humano es capaz de percibir frecuencias en el rango de los 20 hasta los 20.000 Hz En cuanto a la intensidad, los humanos perciben un rango dinámico en torno a los 120 dB. Sonidos de intensidad superior a los 90 dB. pueden provocar daños irreversibles.
Codificación Perceptual El sonido se produce por la interacción de un objeto que vibra, un medio de transmisión y un receptor. Para que el sonido sea percibido por el ser humano, el objeto debe vibrar con una frecuencia de entre 20 Hz. y 20 KHz. La vibración produce una compresión y rarefacción alternativa del aire que se transmite en forma de ondas sonoras. Estas ondas llegan al oído, donde se producen unos estímulos eléctricos que el cerebro interpreta como sonidos. Las ondas sonoras se atenúan con la distancia y pueden ser absorbidas o reflejadas por los obstáculos que encuentran a su paso.
Características del sonido Un sonido se puede describir mediante su tono, timbre, intensidad y duración. El tono de un sonido está directamente relacionado con la frecuencia, aunque no son sinónimos. La frecuencia es una magnitud física asociada a todo sonido, mientras que el tono (agudo o grave) es una característica perceptiva que solo captamos en los sonidos periódicos: los que tienen una frecuencia más o menos constante.
Características del sonido Desde el punto de vista musical, al duplicar la frecuencia de un sonido, se pasa a la octava siguiente. Por ejemplo, el La de la octava central del piano tiene una frecuencia de 440 Hz., y el La de la siguiente octava (más agudo), 880 Hz. En la música occidental, la octava se divide en 12 semitonos (las doce teclas que hay en cada octava de un piano). Para obtener la frecuencia de un semitono a partir de la frecuencia del anterior, hay que multiplicar por raíz doceava de 2, o lo que es lo mismo: 1,05946.
Características del sonido El timbre es la “personalidad” de un sonido y permite distinguir, por ejemplo, el sonido de un piano y de una trompeta con igual duración, intensidad y tono. Gráficamente, el timbre se caracteriza por la forma de la onda. Las ondas sinusoidales puras sólo se obtienen electrónicamente, pero en la naturaleza, los sonidos son más complejos. La frecuencia de vibración más grave (frecuencia base) es la que determina el periodo y la amplitud. Las restantes frecuencias, que suelen ser múltiplos de la frecuencia base, son los armónicos.
Características del sonido La intensidad de un sonido depende de la amplitud de onda. Las intensidades de los sonidos que podemos percibir tienen un rango de más de 15 órdenes de magnitud por lo que para su medición se usa una escala logarítmica (decibelios) donde a es la amplitud de onda del sonido que se está midiendo, y aref es la amplitud de referencia (la del sonido con el cual se compara).
Características del sonido Así los decibelios son una relación entre dos amplitudes de onda. Si se toma como amplitud de referencia el umbral de audición, la siguiente tabla muestra la intensidad en dB de algunos sonidos representativos:
Características del sonido Relacionado con la intensidad está el concepto de rango dinámico, que es la diferencia en decibelios entre el sonido más fuerte y más débil que un sistema puede producir. En un aparato de sonido, este valor indica la diferencia entre el volumen máximo y el ruido de fondo que se emite cuando no hay señal. En los equipos de sonido de cierta calidad el rango dinámico oscila entre los 80 dB y los 95 dB
Formato de archivos • AU. Formato audio estándar de Sun. Poca calidad pero son muy comunes en Internet. • AIFF (Audio Interchange File Format), comunes en Mac. Hay una versión con muestras comprimidas, AIFF-C. • QuickTime también tiene formato de audio, sincronizable e integrable con otros medios. • WAV (Waveform) es el formato de Windows. • MP3
MP3 Las siglas MP3 responden a una abreviación de MPEG 1 layer 3. Es un algoritmo de codificación perceptual desarrollado por el consorcio MPEG (Moving Picture Expert Group) junto con el Instituto Tecnológico Fraunhofer que finalmente se ha estandarizado como norma ISO-MPEG Audio Layer 3 (IS 11172-3 y IS 13818-3) y que viene a ser un avance importante sobre los anteriores desarrollos (Layer 1 y Layer 2).
MP3 Dentro de los estándares de vídeo MPEG hay también creados estándares de compresión de audio. Como se permiten distintas calidades existen tres "capas" con distintos esquemas de compresión: la capa 1, la 2 y la 3 (de forma que la complejidad es progresiva, un decodificador de capa 3 funciona también con las capas anteriores), y esta última se conoce por MP3 o MPEG Audio Layer-3.
MP3 El MP3 permite comprimir en un factor aproximado de 12 la información original muestreada (unos 128 Kbits por segundo, es decir, más o menos 1 Mb por minuto) sin perder calidad de sonido de forma apreciable (por un oído no entrenado... y de hecho los estudios de percepción de calidad de mp3 se han hecho con oyentes humanos opinando sobre las diferencias). El formato mp3 utiliza unos cuantos trucos para comprimir el sonido, fundamentalmente técnicas de codificación de percepción que aprovechan la manera en la que el oído humano percibe el sonido. Algunas de las claves son:
MP3 Umbral mínimo de audición El umbral mínimo de audición humano (minimal audition threshold) no es lineal. Cualquier sonido situado fuera de unos ciertos límites y niveles puede no codificarse, ya que no será percibido de cualquier modo.
MP3 Efecto máscara Hay una serie de propiedades de ocultación (masking effect) del oído humano. De la misma forma que al mirar a un objeto muy brillante se anula la percepción de otros objetos que puedan cruzarlo, en audio los sonidos fuertes no dejan oír a los débiles. Para conseguir aprovechar esta característica mp3 usa un modelo psicoacústico del comportamiento del oído humano, que filtra los sonidos más débiles cuando hay sonidos muy fuertes a la vez.
MP3 Reserva de bytes Partes de una obra pueden no ser codificados por debajo de un número de bytes por segundo para mantener la calidad. En estos casos, mp3 usa partes que sí pueden codificarse en un tamaño inferior para almacenar parte de los otros, de modo que actúa como una especie de buffer de las partes más exigentes.
MP3 Fusión de estéreo En muchas músicas, en frecuencias determinadas, el oído humano no puede distinguir el origen espacial de los sonidos de un canal u otro del estéreo. En este caso mp3 puede fusionar las dos señales en una única (mono) añadiendo quizás alguna información de diferenciación de canales para disminuir al mínimo la información.
MP3 Codificación de Huffman El código Huffman se aplica al final de la compresión. En cierto modo complementa a las otras partes de la codificación mp3: en algunas partes polifónicas se puede reducir mucha información enmascarada o de estéreo, y en ese caso habrá poca redundancia (y por ello poca reducción por codificación Huffman); mientras que en partes de solos se podrán aplicar pocos efectos de máscara pero habrá muchos bytes redundantes (mucha reducción por Huffman).
MP3 Encoder Codificación: el codificador procesa la señal de audio digital y produce el bitstream empaquetado para su almacenamiento y/o transmisión. El algoritmo de codificación no está determinado, y puede utilizar enmascaramiento, cuantización variable y escalado. Sin embargo, debe ajustarse a las especificaciones del decodificador.
MP3 Encoder Las muestras se introducen en el codificador y a continuación el mapeador crea una representación filtrada y submuestreada de la señal de entrada. El modelo psicoacústico crea una serie de datos (dependiendo de la implementación del codificador) que sirven para controlar la cuantización y codificación. Este último bloque crea a su vez su propia serie de datos, de nuevo dependiendo de la implementación. Por último, el bloque de empaquetamiento de trama se encarga de agrupar como corresponde todos los datos, pudiendo añadir algunos más, llamados datos adicionales, como por ejemplo CRC o información del usuario.
MP3 Decoder El decodificador debe procesar el bitstream para reconstruir la señal de audio digital. La especificación de este elemento sí esta totalmente definida y debe seguirse en todos sus puntos. La figura ilustra el esquema del decodificador.