Scrigroup - Documente si articole

     

HomeDocumenteUploadResurseAlte limbi doc
Alimentatie nutritieAsistenta socialaCosmetica frumuseteLogopedieRetete culinareSport

TEHNOLOGII MULTIMEDIA - CONSIDERENTE PSIHOACUSTICE

sanatate



+ Font mai mare | - Font mai mic



TEHNOLOGII MULTIMEDIA - CONSIDERENTE PSIHOACUSTICE



raspunsul in frecventa al urechii este logaritmic zb. intervalul 100 - 200 Hz este perceput ca o octava, la fel ca si 1000 - 2000 Hz. Dpdv liniar, a doua octava este mult mai larga, dar urechea percepe acelasi interval.

sensibilitatea urechii este dependenta de frecventa

Urechea externa colecteaza sunetele si le directioneaza prin canal catre timpan. Canalul are frecventa de rezonanta cam la 3 kHz => sensibilitate maxima pentru voce (1 - 5 kHz).

Urechea umana are mai multe particularitati. Una este cea de mai sus, alta consta in faptul ca urechea face diferenta mult mai bine intre doua tonuri joase decat intre doua tonuri inalte => s-a dedus ca urechea umana functioneaza pe principiul benzilor critice.

Benzile critice sunt mai inguste la frecvente mici, decat la cele mari, cercetarile aratand ca urechea receptioneaza drept urmare mai multa informatie la frecvente joase decat la frecvente inalte.

Alte doua caracteristici ale urechii umane sunt: pragul de audibilitate si mascarea.

1. Pragul de audibilitate:

descrie nivelul minim la care urechea poate detecta un sunet de o anumita frecventa. Pragul de referinta este de 0 dB la o frecv. de 1 kHz. Intre 1 si 5 kHz se pot auzi chiar si sunete sub 0 dB.

Regula generala este: doua sunete de aceeasi putere dar de frecvente diferite vor fi percepute la nivele de intensitate diferite.

Sensibilitatea urechii descreste in functie de frecventa, (grafic), zB. un sunet de 20 Hz ar trebui sa sune cu 70 dB mai tare decat un sunet de 1 kHz pentru a putea fi cat de cat perceput.

2. Mascarea in amplitudine

apare atunci cand un sunet impinge pragul de audibilitate in sus pe o regiune centrata pe frecventa respectivului sunet. Tonul care mascheaza este numit mascator, celalalt este numit ton mascat

Responsabile de acest fenomen sunt asa numitii cili din interiorul urechii, niste perisori care oscileaza in functie de frecventa sunetului. Perii sunt orientati pe lungime, un sunet de intensitate mai mare intrand mai adanc in ureche decat unul mai slab si desensibilizand cilii de la inceputul canalului auditiv.

Curbele de mascare sunt asimetrice, fiind mai abrupte in partea de joasa frecventa => este mai usor pentru un sunet de joasa frecventa sa mascheze un sunet de o frecventa superioara decat invers (+ sensibilitatea urechii).

3. Mascarea temporala

apare atunci cand doua sunete sunt generate la momente foarte apropiate, dar nu simultan. Un semnal poate fi mascat de un altul care apare mai tarziu (pre-mascare) sau de un sunet care apare dupa ce primul semnal a incetat (post-mascare). Asa cum mascarea simultana (in amplitudine) este invers proportionala cu diferenta de frecventa, asa si mascarea temporala este invers proportionala cu diferenta de timp intre cele 2 semnale.

De exemplu: pentru un sunet de 80 dB, poate aparea o pre-mascare de 40 dB cu 20 ms inainte, si o post-mascare de 0 dB la 200 ms. Mascarea temporala scade cu durata mascatorului.

Mascarea temporala ne ajuta sa intelegem modul de functionare al auzului uman: adica, din considerentele de mascare se poate deduce ca creierul integreaza sunetul pe o perioada de timp si proceseaza informatia in salve.

Daca mascarea in amplitudine se combina cu mascarea temporala se obtine un contur, o forma care poate fi reprezentata in domeniul timp - frecventa. Toate sunetele care sunt acoperite de conturul respectiv vor fi mascate. De stabilirea conturului se va ocupa, asa cum vom vedea, codorul perceptual.

Sa vedem care sunt ratiunile si procedee de reducere a datelor audio:

Avem deci doua posibilitati clasice de a reduce datele, prin prisma produsului intre frecventa de esantionare si a lungimii cuvantului de cuantizare.

deci:  datele = frecv.esantionare X lung. cuv. cuantizare.

Sa vedem daca putem reduce fr. de esantionare. Putem, dar cu efect direct asupra frecventei superioare a semnalului, conform criteriului lui Nyquist.

Lungimea cuvantului de esantionare poate fi si ea redusa, dar, cu cat sunt mai putini biti, cu atat dinamica semnalului scade si zgomotul de cuantizare creste (explicatie zgomot de cuantizare cu grafic). Cu fiecare bit, dinamica semnalului audio scade cu 6 dB, zg. de cuantizare crescand tot cu atat.

In concluzie, prea mult nu se poate jongla din cei doi parametri de baza ai inregistrarilor digitale. Deci, trebuie gasita alta metoda de a reduce datele, mai exact metode bazate pe codare perceptuala sau psihoacustica. Codarea perceptuala mentine constanta frecventa de esantionare la valoarea dorita, dar reduce numarul de biti de cuantizare dinamic bazat pe o analiza a semnalului. Prin folosirea proprietatilor urechii ca pragul de audibilitate si mascarea, se elimina si zgomotul de cuantizare aparut in urma reducerii nr. de biti.

Codoarele perceptuale analizeaza continutul de frecventa si de amplitudine a semnalului audio si il compara cu modelul perceptiei umane a sunetului. Se elimina astfel informatiile irelevante si redundante care oricum nu s-ar fi auzit. Este o metoda de codare cu pierderi, dar urechea umana nu va percepe aceste pierderi de semnal audio.

Alte reduceri de rate de date se pot realiza prin codarea comuna a celor 2 canale care formeaza un sunet stereofonic. De exemplu, un sunet puternic pe un canal poate masca sunetele mai slabe de pe celalalt canal. In plus, codoarele perceptuale se bazeaza si pe posibilitatea urechii de a localiza sunetele in spatiu numai de la o anumita frecventa in sus (tweeter + woofer location - surround systems). Deci, se poate coda un semnal stereo folosind un singur canal pentru semnale pana la o anumita frecventa, si uzual, doua canale pentru frecventele mai inalte.

4. Codare perceptuala

Sistemele de codare perceptuala analizeaza continutul unui semnal audio din punct de vedere al amplitudinii si al frecventei si il compara cu un model auditiv perceptual. Folosind acest model, codorul elimina portiunile irelevante sau redundante din punct de vedere statistic din semnalul audio. Codarea semnalelor se face cu pierderi.

Eficienta codarii perceptuale consta in cuantizarea adaptiva a semnalului audio, in functie de audibilitatea unui anumit pasaj sonor. Astfel, unui sunet puternic i se atribuie un numar mai mare de biti decat unui sunet de o intensitate mai redusa.

Sunt folosite doua strategii de alocare a bitilor in codoarele perceptuale:

a)      Forward adaptive allocation

Alocarea bitilor se efectueaza in encoder si aceasta informatie este continuta si in bitstream-ul generat de encoder. Marele avantaj consta in faptul ca modelul psihoacustic este continut in encoder. Decoderul nu are nevoie de un asemenea model, deoarece reconstruieste datele pe baza informatiilor suplimentare incluse de encoder. Astfel, modificarea complexitatii encoderului nu va necesita si schimbarea decoderului, deci se pastreaza compatibilitatea. Dezavantajul metodei consta in pierderea unui anumit numar de biti din semnalul bitstream, folositi pentru reprezentarea informatiilor de alocare.

b)      Backward adaptive allocation

Pentru aceasta varianta, informatia de alocare a bitilor este derivata din semnalul audio codat, fara informatii explicite de la encoder. Nu sunt deci necesare informatii suplimentare in semnalul bitstream, dar creste complexitatea decoderului, si acuitatea poate sa scada din lipsa informatiilor suplimentare. In plus, schimbarea modelului psihoacustic folosit in encoder implica si modificarea decoderului.

Un alt mare avantaj al codarii perceptuale este toleranta la erori. LA PCM, o eroare in semnalul codat introduce un zgomot de banda larga. La codarea perceptuala, o posibila eroare este limitata la o banda ingusta de semnal (corespunzand unei subbenzi de frecventa). Deci, in loc de un clic foarte audibil, eroarea ar putea fi perceputa ca un zgomot de banda ingusta.

Teoretic, codarea perceptuala poate oferi protectie selectiva la eroare, putand aloca mai multi biti de corectie unor pasaje pianissimo si mai putini unor pasaje forte.

5. Codarea pe subbenzi

A fost utilizata pentru prima data la inceputul anilor 80 de catre americani la Bell Laboratories, pentru a fi dezvoltata ulterior in Europa.

Sunt colectate blocuri de esantioane succesive pe o perioada de timp. Aceste esantioane sunt aplicate unui banc de filtre care impart semnalul in subbenzi multiple (uzual 32) pentru a aproxima benile critice ale urechii umane. Filtrele folosite trebuie sa aiba o panta foarte abrupta (cam 100 dB/octava) pentru a emula bine benzile critice => se folosesc filtre digitale, cu o intarziere cat mai mica (mai mica de 3 ms).

In acelasi timp cu impartirea in subbenzi, in paralel se poate efectua si o FFT a semnalului initial pentru a analiza energia in fiecare subbanda pentru a determina care din subbenzi contin informatii audibile.

Se mai face si o calculare a puterii mediii a semnalului in fiecare subbanda pentru a stabili pragul de mascare. Odata stabilite pragurile individuale, acestea sunt modificate si in functie de subbenzile adiacente.

Bitii de cuantizare sunt asignati cu prioritate pentru benzile cu putere mai mare deasupra nivelului de audibilitate. Se aloca biti doar pentru amplitudinea aflata peste pragul de mascare, de aceea semnalul B are nevoie doar de 10 biti. El mascheaza semnalul C dar impinge in acelasi timp si pragul de mascare in sus pentru sine. Se foloseste raportul semnal-mascare, si nu raportul semnal-zgomot pentru a aloca numarul de biti necesar. Acest raport este calculat pentru fiecare subbanda in parte, fiind diferenta intre semnalul de amplitudine maxima si pragul de mascare. Asa se aloca numarul de biti necesar fiecarei subbenzi. Nr. de biti poate fi suplimentat pentru a mentine zgomotul de cuantizare sub pragul de audibilitate al subbenzii. Mai adaug un bit, zgomotul de cuantizare scade cu 6 dB si intra sub pragul de mascare. (figura 11-15).

In encoderele cu rata fixa de biti, se implementeaza o abordare de tip BIT POOL: semnalele cu un raport SMR mare sunt servite primele, iar daca, dupa ce aceste semnale sunt codate, mai exista biti ramasi, acestia pot fi alocati unor subbenzi catalogate anterior ca fiind inaudibile. Atentie, codarea acestor subbenzi are o prioritate secundara.

6. Codarea prin transformari

Se petrece prin convertirea unui bloc de esantioane audio din domeniul timp in domeniul frecventa. Se pot folosi DFT, FFT, DCT, MDCT. Prin transformare se obtin coeficienti spectrali, in numar uzual de 512, 1024 sau mai muti. Coeficientii spectrali sunt grupati in 32 de subbenzi pentru a emula benzile critice. Coeficientii sunt cuantizati in functie de considerente psihoacustice uniform, neuniform, fix, adaptiv pentru fiecare subbanda in parte. Dupa cuantizare, coeficientii pot fi din nou codati pentru a fi transmisi sau stocati. Se folosesc in acest sens coduri entropice de tip Huffman sau RL. La decodor, procesul este inversat.

7. MPEG 1 Layer I, II si III

ISO - MPEG 1 este un standard intrat in vigoare la sfarsitul anului 1992, care integreaza tehnici de compresie digitala audio si video cu rate de maxim 1,5 Mbit/s.

Partea audio a acestui filtru functioneaza similar pentru cele trei layer-e aparute de-a lungul ultimilor ani: semnalul audio trece printr-un banc de filtre si este analizat in domeniul frecventa. Componentele rezultante sunt privite ca valori ale subbenzilor sau coeficienti spectrali. In paralel se calculeaza pragurile de mascare pentru fiecare subbanda. Semnalele din subbenzi sunt cuantizate conform unul model psihoacustic. Esantioanele sunt codate impreuna cu alte informatii suplimentare inainte de a fi transmise sau stocate. In toate layerele este specificat de standard doar decodorul, ceea ce inseamna ca dpdv al codarii, lucrurile sunt absolut deschise, lasand spatiu de manevra pentru imbunatatiri in domeniul psihoacustic.

a) Layer I, II

Semnalul este impartit in 32 de subbenzi egale, fiecare continand 36 de sample-uri consecutive. FFT este folosita pentru a distinge intre componentele utile (muzica) si cele inutile (zgomot) pentru o mai buna apreciere a parametrilor psihoacustici (prag de mascare si puterea spectrala).

Pentru fiecare subbanda se calculeaza niste factori de scala pentru a putea reconstrui corect semnalul ulterior la decodare.

Cuantizarea se face de la 0 la 16 biti astfel: benzile de frecventa joasa primesc mai multi biti (pana la 15), cele de frecventa inalta primind pana la 3 - 4 biti. Asta pentru a emula subbenzile critice ale urechii umane (subbenzi egale - cuantizare variabila vs. subbenzi diferite ca dimensiuni - cuantizare constanta).

Decodarea se face prin multiplicarea esantioanelor din fiecare subbanda cu factorul de scala corespunzator, fiind tot ce are nevoie decodorul pentru a reconstrui semnalul initial. Deci, decodorul nu trebuie sa dispuna de date despre codarea psihoacustica.

O versiune Layer 1 se foloseste la DCC

Layer 2 se foloseste la Eureka DAB - digital audio broadcasting - transmisie prin satelit. Delay-ul la codare si decodare este de cel putin 10 ms.

b) Layer III

Este mai complexa decat Layer I si II, generand sunet de fidelitate mai mare.

Fiecare din cele 32 de subbenzi este transformata in 18 coeficienti spectrali printr-o transformata MDCT care acopera o fereastra de 24 ms. Prin modificarea lungimii ferestrei se pot evita efecte de ecou ce pot aparea din cauza zgomotului de cuantizare.

Numarul de biti alocati fiecarei subbenzi este calculat in functie de zgomotul de cuantizare, incercand sa-l mentina sub nivelul audibil. Este deci vorba de noise allocation si nu de bit allocation la la Layer I si II.

Datele sunt codate Huffman, ratele putand varia de la frame la frame, permitand inregistrari cu rate de codare variabile (mai multi kbps pentru pasajele intense, mai putini pentru cele mai putin intense). Daca totusi se foloseste o rata constanta bitii care eventual raman disponibili (nu sunt folositi la cuantizare) pot fi folositi pentru a suplimenta cuantizarea subbenzilor cu o entropie ridicata.

c) Structura datelor MPEG 1

Datele MPEG 1 audio sunt transmise in frame-uri, care incep cu un header pe 32 de biti. Primii 12 biti contin un pattern de sincronizare. Emphasis este (pre) amplificarea.

Scale Factor Select Information este folosit pentru a mai elimina din redundanta factorilor de scala cu un factor 2 pt ca in frame-uri succesive se presupune ca factorii de scala nu variaza foarte mult.

d) Calitate

Teste indelungi au aratat ca pentru MPEG Layer II sau III la 2 X 128 kbps sau 192 kbps Joint Stereo, un program sonor stereo nu prezinta degradari fata de un program sonor 16 bit PCM.



Politica de confidentialitate | Termeni si conditii de utilizare



DISTRIBUIE DOCUMENTUL

Comentarii


Vizualizari: 1541
Importanta: rank

Comenteaza documentul:

Te rugam sa te autentifici sau sa iti faci cont pentru a putea comenta

Creaza cont nou

Termeni si conditii de utilizare | Contact
© SCRIGROUP 2024 . All rights reserved