O áudio é definido por uma perturbação ocorrida na pressão do ar que atinge o sistema auditivo humano. Existem limites para os tipos de perturbações deste género que conseguem ser detectadas pelo sistema auditivo humano, tanto em termos de frequência, quer de amplitude e duração temporal. Devendo então a concepção de métodos de codificação de áudio atender às características e limitações do ouvido humano. No geral, estes métodos tiram partido das duas maiores limitações do ouvido humano:
O comportamento não-linear onde o ouvido humano possui uma resposta não linear, a sensação do mesmo é que o ruído produzido por um som aumenta logariticamente com a intensidade do mesmo e não de uma forma linear.
O limiar adaptativo da audição, onde é considerada a capacidade variável do limite do nível mínimo (limiar de audibilidade), ao limite do nível máximo (limiar da dor), nos quais o ser humano perde a capacidade ouvir.
Banda de frequências da audição humana
À medida que as frequências das perturbações periódicas aumentam no ar, o ouvido humano começa a ouvir sons quando as frequências destes excedem os 20 ciclos por segundo, ou seja, 20 Hz. Quando as frequências destes sons excedem os 20.000 Hz, o sistema auditivo humano deixa de os ouvir.
A voz humana emite sons que variam entre 500 Hz até 2000 Hz. Sendo que as frequências mais baixas são produzidas pelos sons das vogais e dos baixos e as mais elevadas pelas consoantes.
Banda de intensidade da audição humana
É designada por banda dinâmica (dynamic range), as amplitudes de sons que conseguem ser ouvidas por seres humanos. O limite mínimo da banda dinâmica situa-se no limiar da audibilidade e o limite máximo no limiar da dor. Entende-se por amplitude a medida física de percepção humana do ruído ou volume de um som, designada também por loud-ness. No entanto, existe, do ponto de vista do sistema auditivo humano, um conjunto de interacções complexas entre a amplitude e a frequência de um sinal sonoro, ou seja, a percepção da tonalidade que está associada à frequência de um determinado som pode modificar quando se altera a respectiva amplitude.
A caracterização da banda desde o limiar de audibilidade ao limiar da dor, não sendo útil trabalhar com valores numéricos tão extensos, pode ser realizada mais convenientemente definindo uma nova unidade – o decibel (dB), que deriva do facto de se multiplicar por 10 o logaritmo do rácio entre as potências.
Mascaramento de frequências
Sendo que uma das limitações do ouvido humano é o facto de ser adaptativo, ou seja, o mesmo pode ser alterado devido à existência simultânea de um conjunto de sons.
Designam-se por sons mascarados todos os sons que se tornam inaudíveis devido a adaptação dinâmica do limiar da audibilidade.
Pode-se comparar o efeito de mascaramento com o que sucede com o sistema visual humano, quando este é sujeito a uma luz muito brilhante, perde a capacidade de visualizar luzes de intensidade mais reduzida. Este fenómeno é idêntico ao mascaramento sonoro, ao sujeitarmos o sistema auditivo a vários sons, outros podem-se tornar inaudíveis total ou parcialmente, apesar de poder durar apenas alguns milissegundos.
Se um som mascar outro, este efeito depende essencialmente da proximidade dos dois sons em termos de frequência. O efeito de mascaramento diminui mais lentamente para a direita da curva, ou seja, em direcção às altas frequências.
Conclui-se então que um som com menor frequência pode efectivamente mascarar sons com frequências mais elevadas, por outro lado um som com frequências mais elevadas afecta menos os sons com frequências mais baixas. O efeito mascaramento pode ocorrer independentemente de os sons ocorrerem ou não em simultâneo, ou seja, se o som máscara ocorrer antes de outro som, este último pode ainda ser mascarado pelo primeiro. Os efeitos de mascaramento continuam a observar-se mesmo que a máscara seja uma banda de frequência de ruído e não apenas uma única frequência.
No entanto, o efeito de mascaramento sonoro possui restrições, pois os sons audíveis apenas podem ser mascarados quando o som máscara se situa dentro da mesma banda crítica (frequência que é sempre rodeada por uma banda de frequências onde ocorrem os vários fenómenos de mascaramento que afectam a audição).
Mascaramento temporal
Por vezes um som pode ser mascarado por outro que o precede, efeito conhecido por forward masking, ou por um som que o segue, efeito designado por backward masking.
O efeito forward masking dura até 200 ms, correspondendo ao fenómeno através do qual os neurónios armazenam a energia inicial e não conseguem receber um novo estímulo, até que se libertem dessa energia, o efeito desta máscara vai diminuindo gradualmente até que desaparece por volta do limite de duração referido.
Motivação para a compressão de áudio digital
A compressão de áudio digital é tão importante quanto a compressão de imagens e vídeo digital, pois é uma parte importante de qualquer aplicação digital, que pode consumir consideravelmente a largura de banda disponível. Consequentemente, ao ser comprimida, obtemos mais espaço na largura de banda.
Representação de áudio digital
Existem dois pontos importantes para o controlo da qualidade e do débito binário (bit rate) de um sinal de áudio digital: A frequência de amostragem (ou taxa de amostragem) que permite determinar a quantidade de espectro de frequência do sinal analógico original que pode ser reproduzida com fidelidade pelo sinal de áudio digital; a resolução da quantificação resume-se ao número de bits por cada amostra de áudio. No que diz respeito ao áudio digital a resolução da quantificação determina a banda dinâmica (dynamic range) de um sinal digital de áudio.
Abordagens para a compressão de voz e áudio genérico
A entropia contida num sinal de áudio é relativamente alta, posto isto, os métodos de compressão sem perdas, não são funcionais quando aplicados directamente à compressão de dados de áudio digital. Vistos que os rácios de compressão dos métodos e compressão sem perdas não chegam para aliviar os problemas levantados pela transmissão e armazenamento de dados, foi necessário encontrar soluções alternativas mais adequadas às características deste tipo de média, ou seja, que tomam em consideração a natureza do média a comprimir.
A compressão de áudio pode ser obtida tomando em consideração as características da fonte de áudio.
Actualmente é possível a obtenção de rácios de compressão com perdas de voz até 20:1, embora os requisitos de qualidade para áudio genérico sejam bastante mais elevados que para a transmissão de voz sobre canais telefónicos.
As duas técnicas de compressão de áudio de alta-fidelidade mais usadas são: os algoritmos definidos nas várias normas MPEG – áudio; os algoritmos de compressão de áudio AC.
Ambas as técnicas usam modelos psicoacústicos relacionados com o sistema de percepção da audição humana.
As técnicas MPEG - Áudio e Dolby AC - 3 não partem de pressupostos sobre a fonte do sinal de entrada podendo ser aplicada eficazmente tanto no áudio do tipo de voz como a áudio de alta-fidelidade, através da aplicação de métodos de codificação perspectiva
Nas duas técnicas a compressão é obtida através de dois processos sequenciais: a transformação do sinal de entrada para o domínio das frequências; a utilização de métodos psicoacústicos para remoção de informação do ponto de vista perceptivo.
Fonte: Ribeiro, Nuno; Torres, José. Tecnologias de Compressão Multimédia. 3ª Edição. FCA – Editora de Informática, Lda. 2007.