CATEGORII DOCUMENTE |
Aeronautica | Comunicatii | Electronica electricitate | Merceologie | Tehnica mecanica |
Compresia video
Tehnicile utilizate in cadrul studiourilor TV difera fundamental fata de tehnicile de transmisie. In studio postprocesarea reprezinta o necesitate de baza unde semnalul de TV trebuie sa prezinte caracteristici de inalta fidelitate chiar in cazul unei multiple postprocesari pentru a evita pierderi notabile in calitate.In noile studiouri de televiziune, o structura digitala, codarea componentelor, si un factor de aspect de 16:9 sunt des intalnite in zilele noastre.
1. Standarde de studio
Recomandarile CCIR 601 si 656 (Tabelul. 1. si 2. ) sunt utilizate ca standarde pentru introducerea componentelor digitale in tehnicile de studio. Rec. 601 descrie in detaliu parametrii de esantionare ale standardului de studio 4:2:2 si prevede o abordare ierarhica in stabilirea standardelor cu privire la rezolutie si compatibilitate. Rec. 656 defineste standardul de interfata (codarea semnalului de date) si standardul de transmisie de studio. Urmarind standardizarea initiala, au fost dezvoltate cateva extensii: lungimea cuvantului a fost modificata de la 8 la 10 biti cu asigurarea compatibilitatii.
Codarea debitului semnalului de date serial a fost modificat de la codarea ce asigura 243Mbit/s, codarea NRZI - care dezvolta un debit de 270Mbit/s. Pe langa aceasta, s-a considerat un format de interfata extins, care avea in vedere necesitatile de schimbare dupa operatiile de postprocesarea.
Ca si observatii generale pentru toate formatele trebuie amintit faptul ca pentru a digitiza un semnal a carei banda este limitata superior la Fmax. este necesara folosirea unei frecvente de esantionare Fs de cel putin dublul frecventei maxime din spectrul semnalului (Fmax): aceasta conditie fiind impusa de necesitatea evitarii fenomenelor de aliere.
Pentru semnalele video componente dintr-o sursa de studio, care poate avea o banda mai mare de 6MHz CCIR recomanda o frecventa de esantionare Fs = 13.5MHz. Aceasta frecventa este independenta de tipul explorarii si reprezinta 864xFh pentru sistemul cu 625 linii si 858 x Fh pentru sistemele cu 525 linii. Numarul esantioanelor per linie este 720 in ambele cazuri.
Intr-un sistem de esantionare pe linie, esantioanele sunt situate in aceleasi locuri fixe in toate liniile dintr-un cadru, si de asemenea de la cadru la cadru fiind astfel situate intr-o retea rectangulara. Din acest motiv aceasta metoda de esantionare se numeste 'esantionare ortogonala' in opozitie fata de alte scheme de esantionare utilizate pentru esantionarea video compus.
Cea mai economica metoda in termeni de rata de bit pentru digitizarea semnalului video, pare a fi, apriori sa fie reprezentata de utilizarea semnalului complex ca si sursa; in orice caz, calitatea va fi afectata de natura complexitatii. Avand in vedere ca un numar de 8 biti (corespunzand unui numar de 256 nivele de cuantizare) reprezinta minimul necesar pentru un bun semnal pentru cuantizor raportului de zgomot (S/N 59dB), de bitul de date necesitat de aceasta digitizare complexa este de .
135 x 8 = 108Mb/s, care reprezinta o valoare semnificativa
1.1. Formatul 4:2:2
Rec. CCIR 601, stabilita in 1982, definea parametrii de digitizare pentru semnalul video in forma bazata pe componente de semnal Y, Cr, Cb in formatul 4:2:2 (adica patru esantioane de luminanta pentru doua esantioane Cr si doua esantioane din Cb) codat cu 8 biti pe esantion (cu o rezerva de extensie la 10 biti/esantion). Frecventa de esantionare este de 13,5 MHz pentru semnalul de luminanta respectiv 6,75 MHz pentru semnalele de crominanta. Acesta are ca efect introducerea unui numar de 220 esantioane active per linie pentru semnalul de luminanta si 360 esantioane active per linie pentru fiecare semnal de crominanta. Pozitia esantioanelor de crominanta corespunde esantioanelor impare ale semnalului de luminanta (Figura. 2).
Semnalele de crominanta Cr si Cb fiind disponibile simultan pe fiecare linie, rezolutia verticala pentru crominanta este acelasi ca si pentru luminanta (480 linii pentru sistemele cu 525 linii, 576 linii pentru sistemele de 625 linii). Debitul binar rezultat din aceste procese este:
13,5 x 8 + 2 x 6,75 + 2 x 6,75 = 216 Mb/s
Figura 2. Structura esantionarii ortogonale a imaginii
Figura 3. Pozitia esantioanelor in formatul 4:2:2
Prin utilizarea unei cuantizari pe 10 biti, debitul binar ajunge la valoarea de 270 Mb/s. Daca se ia in calcul redundanta rezultata din procesul digitizarii, partea inactiva a semnalului video (perioadele stingerilor verticale si orizontale), debitul binar util scade sub valoarea de 166 Mb/s cu 8 biti /esantion. Aceste perioade inactive din semnalul tv pot fi 'umplute' cu alte date utile cum ar fi sunetul digital, sincronizarea sau alte informatii.
Recomandarea CCIR-656 conditiile interfatare electrice standard pentru semnalul in formatul 4:2:2 digitizat in conformitate cu Rec. CCIR-601. Acesta reprezinta formatul utilizat pentru interfatarea video recorderelor digitale D1. din acest motiv fiind deseori apelata ce 'formatul D1'.
Versiunea paralela a acestei Recomandari defineste semnalul in forma multiplexata (Cr1 Y1 Cb1. Y2 Cr3 Y3 Cb3) pe o interfata paralela pe 8 biti cu un tact de 27 MHz (o perioada de tact pentru un esantion). Sincronizarea si alte date sunt incluse in fluxul de date iar conectorul normalizat este cel de tipul DB25 plug.
Exista de asemenea o forma seriala a interfetei CCIR-656 utilizata pentru transmisia pe cablu coaxial de 75 W cu conectori BNC, dar care reclama o rata de bit superioara (243 Mb/s) datorita utilizarii a noua biti pe esantion pentru codare.
1.2. Formatele 4:2:0, SIF,CIF si QCIF
Pentru aplicatii mai putin pretentioase in termeni de rezolutie si in scopul reducerii debitului de date, au fost definite un anumit numar formate derivate din 4:2:2, dupa cum urmeaza:
Formatul 4:2:0
Acesta se obtine din formatul 4:2:0 prin utilizarea aceluiasi esantion al semnalului de crominanta pentru doua linii succesive, in scopul reducerii cantitatii de memorie necesare procesarii; prin acestea rezolutia verticala de acelasi ordin cu cea orizontala. Rezolutiile semnalului de luminanta si crominanta orizontal sunt identice cu cele ale standardului 4:2:2. Astfel se obtine:
- rezolutia luminantei: 720 x 576 (625 linii) sau 760 x 480 (525 linii);
- rezolutia crominantei: 360 x 288 (625 linii) sau 360 x 240 (525 linii).
Figura 4. Pozitia esantioanelor in formatul 4:2:0
Figura. 4 indica pozitiile esantioanelor de crominanta in formatul 4:2:0. Pentru a evita fenomenul de clipire al liniei de luminanta observabil in sistemul SECAM la tranzitiile orizontale din imagine (datorate faptului ca un semnal de crominanta este obtinut din linia curenta si cel de al doilea provine din linia precedenta), esantioanele Cb si Cr sunt obtinute prin interpolarea esantioanelor 4:2:2 din doua linii succesive.
Acest format 4:2:.0 prezinta o importanta speciala, fiind cel utilizat la inceput in sistemele de codare D2-MAC si MPEG-2 (MP@ML).
Formatul SIF (Source Intermediate Format)
Acest format este obtinut prin injumatatirea rezolutiei spatiale in ambele directii precum si a rezolutiei temporale, care devine 25 Hz pentru sistemele cu 625 linii si 29.97 Hz pentru sistemele cu 525 linii.
In mod dependent de standardul de origine, rezolutia spatiala poate fi astfel:
rezolutia luminantei: 360 x 288 (625 linii) sau 360 x 240 (525 linii);
rezolutia crominantei: 180 x 144 (625 linii) sau 180 x 120 (525 linii).
Figura. 5 ilustreaza pozitia esantioanelor in formatul SIF. Rezolutia orizontala este obtinuta prin filtrarea si sub-esantionarea semnalului de intrare. Reducerea rezolutiilor verticale si temporale este obtinuta in mod normal prin interpolarea esantioanelor campurilor par si impar dar cateodata se mai poate obtine prin simpla evitare la trecere secunda a cadrelor a formatului de intrare intretesut. Rezolutia obtinuta sta la baza codarii MPEG-1 si defineste, in termeni de rezolutie calitatea asa numita 'ca-VHS' (VHS-like).
Figura 5. Pozitia esantioanelor in formatul SIF
Formatul CIF (cannon intermediate format)
Acesta reprezinta un compromis intre formaturile SIF American si European; rezolutia spatiala este determinata de formatul SIF cu 625 linii (360 x 288) iar rezolutia temporala este determinata de formatul SIF cu 525 linii (29.97 Hz). Acesta constituie formatul de baza pentru aplicatiile de tip videoconferinta.
Formatul QCIF (Quarter CIF)
Inca odata acesta reduce rezolutia spatiala cu 4 (un factor de 2 in fiecare directie) si rezolutia temporala cu 2 sau 4 (15 sau 7.5 Hz). Acesta reprezinta formatul de intrare utilizat pentru videotelefonia ISPN utilizand algoritmul de compresie H261.
2. Probleme ale transportului
In mod evident debite binare de ordin a 200 Mb/s ca cele necesitate de formatul 4:2:2, nu pot fi utilizate pentru o difuzare directa catre utilizatorul final deoarece in aceasta forma poate ocupa o banda de frecventa de ordin a 40 MHz utilizand o modulatie 64 QAM (6 bit/simbol) pentru transmisiile pe cablu, sau 135 MHz cu o modulatie QPSK (2 biti/simbol) pentru transmisiile via satelit. Aceasta reprezinta un necesar de banda de 5-6 ori mai mare decat banda de frecventa utilizata in cazul transmisiilor analogice ale semnalelor PAL sau SECAM, si de asemenea fara a lua in consideratie implementarea nici unui algoritm de corectie a erorilor.
Algoritmi de compresie au fost utilizati de cativa ani in domeniul video profesional, prin acestia reducandu-se debitul sub 34 Mb/s, dar sunt inca foarte dificil de realizat in aplicatii consumator, astfel ne dand nici un avantaj in termeni de capacitate asupra transmisiilor analogice existente. Aceasta a dat nastere in anul 1980 la standarde hibride ca de exemplu D2-MAC (video analogic, sunet digitat) si a intarziat introducerea televiziunii digitale 100%. Progresele foarte rapide realizate in domeniile tehnicilor de compresie si al tehnologiilor circuitelor integrate au determinat ca aceste sisteme sa fie considerate demodate imediat dupa introducerea lor.
Conditiile esentiale de care a depins startul serviciilor de televiziune digitala difuzata au fost dezvoltarea unor solutii tehnice si economice viabile pentru o serie de probleme care pot fi clasificate in doua mari categorii:
v codarea sursei - ceea ce reprezinta un termen tehnic pentru definirea procedurii de compresie utilizate pentru a reduce cu cat mai mult posibil debitul binar (in termeni de Mb/s necesari pentru transmisia imaginilor dinamice la o rezolutie data incluzand si sunetul asociat) cu o cat mai redusa degradare a calitatii;
v codarea de canal - aceasta consta in dezvoltarea unor algoritmi de corectie a erorilor foarte puternici asociati cu cele mai eficiente tehnici de modulatie in ceea ce priveste spectrul de frecvente (in termeni de Mb/s per MHz), luand in considerare latimea de banda disponibila si imperfectiunile predictibile ale canalului de transmisie.
Avand in vedere faptul ca mai multe programe pot fi transmise prin intermediul unui singur canal de RF, secventa de operatii ce trebuiesc executate in partea de transmisie este ilustrata intr-o forma mult simplificata in figura 2. Toate aceste operatii prezentate sub forma unor blocuri functionale vor fi tratate mai pe larg in sectiunile urmatoare
Figura Secventa operatilor principale in sectiunea difuzorului
3. Codarea sursei. Compresia semnalelor video si audio.
In paragraful anterior, se explica de ce compresia reprezinta o procedura absolut necesara care permite difuzarea imaginilor tv intr-un canal de o latime de banda acceptabila. O banda spectrala de dimensiune comparabila cu difuziunile analogice conventionale (6-8 MHz pentru sistemele de difuziune prin cablu sau terestriale, 27-30 MHz pentru sistemele via satelit) implica in practica debita maxime in jurul valorii de 30-40 Mbps, incluzand algoritmii necesari pentru corectia erorilor si schemele de modulatie.
Vor fi examinate in continuare principiile si diversele metode utilizate pentru compresia semnalelor audio-video ce permit obtinerea acestor debite (de fapt mult mai mici). Aceste metode de compresie utilizeaza algoritmi de compresie de date generale care permit aplicarea lor pentru orice fel de date, exploatand redundanta spatiala (pentru aplicarea video pe care o avem in vedere aceasta se poate rezuma la corelatia existenta intre elementele de imagine invecinate) si specificitatea perceptiei vizuale umane (ne fiind posibila perceptia la nivelul aparatului vizual uman, perceptia detaliilor oricat de fine); de asemenea pentru imagini in miscare se are in vedere inalta redundanta temporala dintre cadrele succesive ale unei imagini in miscare (cazul MPEG). In mod asemanator metodele de compresie audio exploatand particularitatilor ale aparatului auditiv uman reduce debitul binar prin eliminarea informatiilor imperceptibile (codare psihoacustica). Avand in vedere spatiul limitat al acestei lucrari din vastul domeniul al metodelor compresiei imaginilor si principiilor ce stau la baza acestora vor fi expuse succint cateva aspecte de baza ale compresiei imaginilor in miscare (MPEG)
3.1 Compresia imaginilor in miscare MPEG(Moving Pictures Expert Group)
In 1990, nevoia stocarii si reproducerii imaginilor in miscare si a sunetului asociat in format digital pentru aplicatii multimedia pe diferite platforme au determinat ISO sa formeze un grup de decizie care includea membrii din numeroase directii implicate (industria calculatoarelor, telecomunicatii, consumatorilor de produse electronice, semiconductori, difuzori, universitati etc.); acest grup numindu-se MPEG (Moving Pictures Expert Group).
Primul produs al acestei actiuni a fost standardul International ISO/IEC 11172, cunoscut in mare masura sub numele de MPEG-1. Principalul obiectiv a fost sa permita stocarea pe CD-ROM sau CD-i, a semnalului video si a sunetului stereo, care implica un debit binar maxim de 1.5 Mb/s. Formatul ales pentru codarea imaginii a fost SIF - imagini ne-intretesute, 360 x 288 - 25 Hz sau 360 x 240 - 30 Hz la mod dependent de standardul video original).
Algoritmul de compresie audio este cunoscut sub numele MUSICAM, utilizat de asemenea in cazul sistemului radio digital European DAB (Digital Audio Broadcasting).
Standardul MPEG-1 consista in trei parti distincte publicate in noiembrie 1992:
Sistemul MPEG1 (ISO/IEC 11172-1); defineste structura multiplexului MPEG1
Video MPEG-1 (ISO/IEC 11172-2); defineste principiile codarii video MPEG-1
Audio MPEG-1 (ISO/IEC 11172-3); defineste codarea MPEG-1 audio.
Calitatea imaginea MPEG-1 nu a fost potrivita pentru aplicatii de difuziune netinand cont de evolutia HDTV. Grupul MPEG desfasoara astfel in continuare o activitate intensa definind un standard flexibil optim pentru difuziune. Acest standard international larg utilizat pe scara mondiala este cunoscut sub numele de MPEG-2.
Ca si predecesorul sau MPEG-2 este specificat in trei parti distincte, publicate in noiembrie 1994:
Sistemul MPEG-2 (ISO/IEC 1381/-1) defineste cadrul MPEG-2 (stream)
Video MPEG-2 (ISO/IEC 13818-2): defineste codarea video MPEG-2
Audio MPEG-2 (ISO/IEC 13818-3): defineste codarea audio.
Se impune observatia ca standardul MPEG2, reprezinta printre alte multe aplicatii, standardul pentru majoritatea televiziunilor numerice difuzate atat europene cat si americane.
3.2. Principii de baza pentru codarea MPEG1
Dupa cum am amintit anterior, principalul obiect al codarii MPEG-1 a fost obtinerea unei calitati medii pentru imaginea televizata cu un debit binar total de1,5 Mb/s in scopul stocarii imaginilor video precum si a sunetului stereo pe CD-ROM. Pentru semnalul video din 1,5 Mb/s sunt necesari 1,15Mb/s ramanand pentru semnalul sonor si datele auxiliare (de ex. Informatiile de Sistem) 350 kb/s. Cu toate acestea specificatiile sistemului MPEG-1 sunt foarte flexibile si permit alegerea unui set de parametrii diferiti in mod dependent de compromisul stabilit intre complexitatea codorului, rata de compresie si calitatea imaginii video.
Codarea semnalului video utilizeaza aceleasi principii ca si in cazul sistemul JPEG (Joint Photographic Expert Group) - utilizat in special pentru compresia imaginilor statice - la care se adauga noi tehnice formand asa numitele "toolbox - uri MPEG-2" . Aceste tehnici exploateaza puternic a corelatiei ce se stabileste intre imaginile succesive in scopul unei reduceri considerabile a necesarului de informatie care trebuie transmis sau stocat. Aceste tehnici cunoscute sub numele de "predictie cu compensarea miscarii" consta in deducerea majoritatii imaginilor dintr-o secventa pe baza unei imagini initiale anterioare, cunoscute, sau chiar pe baza unor imagini dintr-o sub-secventa; toate acestea cu un minimum de informatie aditionala care sa surprinda numai diferentele din imaginile succesive. Acest principiu impune existenta in cadrul codorului MPEG a unui estimantilor de miscare (motion estimator), cea mai complexa functie care determina in mare masura performantele sistemului. Din fericire prezenta acestei functii in structura decodorului MPEG nu este necesara.
Avand in vedere faptul ca in televiziune vorbim despre imagini in miscare, procedura de decodare trebuie sa se realizeze in timp real, aceasta presupunand o intarziere in procesare constanta si de valoare rezonabila ceea ce impune utilizarea unor componente hardware speciale. Procedura de codare, care este mult mai complicata, se poate executa in mai multi pasi, pentru aplicatiile in care rularea in timp real nu este necesara, dar pentru care calitatea reprezinta un factor de prima importanta. Prelucrarea in timp real, care nu inseamna timp de procesare nul, va fi necesara in numeroase aplicatii cum ar fi transmisiile video live.
In concluzie, realizarea practica a codoarelor MPEG reprezinta un compromis, specific aplicatiei, intre viteza de procesare, rata de compresie, complexitatea sistemului si calitatea imaginii.
3.3. Tipuri de cadre MPEG
Standardul MPEG defineste trei tipuri de cadre de imagine care sunt distribuite dupa cum este indicat in figura5.8 .
v cadrul I (Intra): acestea sunt codate fara referire la alte cadre intr-o maniera forte asemanatoare de cea utilizata in cazul algoritmului JPEG, ceea ce inseamna ca acestea contin toata informatia necesara reconstructiei in decodor. Din acest motiv, ele reprezinta puncte de acces esentiale pentru accesul unei secvente video. Rata de compresie a cadrelor de tip I este relativ scazuta ;
Figura 7. Concatenarea celor trei tipuri de cadre in standardul MPEG
v cadrul P (predicted): sunt codate pe baza cadrelor I sau P precedente utilizand tehnicile de predictie compensata a miscarii. Cadrele P pot fi utilizate ca baza pentru urmatoarele cadre supuse predictiei, dar deoarece compensarea predictiei nu este perfecta, nu este posibila o extindere prea marea a numarului cadrelor P aflate intre doua cadre I. Compresia cadrelor P este semnificativ mai mare decat cea a cadrelor I.
v cadre B (bidirectional predicted): aceste cadre sunt codate printr-o interpolare bidirectionala intre cadrele I sau P care la precede sau urmeaza. Deoarece ele nu sunt utilizate pentru codarea cadrelor ulterioare, cadrele B nu realizeaza o propagare a erorilor de codare. De asemenea cadrele B ofera o rata mare de compresie.
In mod dependent de complexitatea codorului utilizat, este posibila codarea doar a cadrelor I, I si P, sau I, P si B cu rezultate foarte diferentiate in perspectiva raportului de compresie si rezolutia accesului aleator si, de asemenea cu privire la timpul codarii si calitatea perceptiei.
Succesiunea cadrelor I,P si R este descrisa cu ajutorul a doi parametrii notati M si N:
M - reprezinta distanta (exprimata in numar de cadre) dintre doua cadre de tip P consecutive;
N - reprezinta distanta dintre doua cadre succesive de tip I, care delimiteaza astfel un grup de imagini (GOP- Group of Pictures);
Valorile generale utilizate ale acestor parametrii sunt M = 3 si N = 12 alese astfel in scopul obtinerii unei calitati video satisfacatoare cu un timp de acces aleator acceptabil ( 5 s) cu un debit binar de 1,5 Mbit/s. Cu acesti parametrii, o secventa video este generata dupa cum urmeaza: 1/12 din structura sa este alcatuita din cadre I (8,33%), 1/4 cadre P (0,25%) si 2/3 cadre B (66%); factorul de compresie este maximizat prin faptul ca majoritatea cadrelor din secventa video descrisa, sunt cadre cu o rata de compresie mare.
Figura 8. Exemplu de grup de imagini MPEG pentru N=12 si M=3
3.4. Re-ordonarea cadrelor
Este evidenta necesitatea ca structura secventei imaginilor dupa decodare sa fie in aceeasi succesiune de cadre ca si secventa originala dinaintea codarii. Cu parametrii semnalati mai sus (M =3, N =12), corespondenta dintre numarul imaginii initiale (originale) si propria imagine codata este dupa cum urmeaza:
1(I), 2(B), 3(B), 4(P), 5(B), 6(B) ,7(P), 8(B), 9(B), 10(P), 11(B), 12(B), 13(I), .
In scopul codarii si decodarii cadrelor B (bidirectionale), atat codoarele cit si decodoarele, vor avea nevoie de prezenta cadrelor I si P succesoare. Aceasta reclama o re-ordonare a secventei originale astfel incat codorul si decodorul sa aiba la dispozitie cadrele I si/sau P necesare inaintea procesarii unui cadre B. Re-ordonarea determina obtinerea urmatoarei secvente:
1(I), 4(P), 2(B), 3(B), 7(P), 5(B), 6(B), 10(P), 8(B), 9(B), 13(I), 11(B), 12(B), .
Cresterea ratei ratei de compresie permisa de cadrele B trebuie sa fie platita printr-o cresterea timpului de codare (suplimentata cu durata a doua cadre) si prin cresterea capacitatii memoriei necesare pentru ambele operatii de codare si decodare (un cadru suplimentare care trebuie memorat).
3.5. Descompunerea secventei video in nivele
MPEG defineste o ierahie de niveluri in cadrul unei secvente video dupa cum este ilustrat in figura 9.
Figura 9. Ierarhia nivelelor video MPEG
Fiecare dintre aceste nivele este caracterizat de o functie sau de mai multe functii specifice in procesul decodare MPEG. Pornind de la nivelul superior succesiunea acestor nivele este urmatoarea:
Secventa (sequence): reprezinta nivelul cel mai inalt ce defineste contextul valid pentru secventa in ansamblu (parametrii video de baza, etc.);
Grupul de imagini (Group of Pictures): aceasta este un nivel ce determina accesul aleator la o secventa de imagini care debuteaza intotdeauna cu un cadru I. In exemplu prezentat anterior (M =3, N =12), grupul de imagini este alcatuit din 12 imagini;
Cadrul (picture): reprezinta unitatea elementara a unei secvente care trebuie sa fie de trei tipuri dupa cum s-a prezentat anterior, si anume: I, P sau B;
Sectiunea (slice): reprezinta nivelul pentru adresarea intra-cadru si pentru (re)sincronizare. Acest nivel este definit ca si un sir de macroblocuri continue. Ansamblul sectiunilor acopera intreaga imagine fara nici o suprapunere intre diferitele sectiuni adiacente. Dimensiunea unei sectiuni poate in mod teoretic sa se situeze ca dimensiune in domeniul de la un macrobloc, la intreaga imagine, dar cel mai ades este alcatuit dintr-un sir complet de macroblocuri.
Macroblocul (macroblock): reprezinta nivelul utilizat pentru estimarea/compensarea miscarii. Un macrobloc are dimensiunea de 1616 pixeli si este alcatuit din patru blocuri de luminanta si doua blocuri de crominanta (unul Cr si unul Cb) acoperind aceeasi arie.
Blocul (block):imaginea este impartita in blocuri de dimensiunea 8 8 pixeli. Acesta este nivelul la care se aplica Transformata Cosinus Discreta DCT(Discret Cosinus Transform). Aceasta reprezinta o etapa importanta in codarea MPEG fiind de fapt un caz particular al transformatei Furier aplicata in cazul semnalelor discrete periodice in scopul descompunerii acestora intr-o serie de functii armonice sin si cos. Semnalul poate fi reprezentat astfel printr-o serie de coeficinti. Fara a dezvolta detaliile matematice vom aminti ca, in anumite conditii, DCT descompune semnalul intr-o serie de functii cosinus armonice in faza cu semnalul care re duce la jumatate numarul coeficientilor necesari pentru reprezentarea semnalului in comparatie cu TF.
Figura 10. Compozitia macroblocului in formatul 4:2:0
3. Controlul debitului binar la iesire
Secventa binara generata de catre codorul video este numita secventa elementara ES (Elentary Stream). In scopul satisfacerii constrangerilor mediului de transmisie, si evitarea depasirii marimii buferului de la intrarea decodorului, debitul secventei elementare trebuie pastrat constant. Aceasta conditie nu este garantata prin procedurile decodare obisnuite tinand cont de diferitele tipuri de detalii si miscari care pot aparea in imaginea care trebuie supusa codarii.
In scopul controlului debitului binar de la iesirea codorului, acesta este echipat cu un buffer de tip FIFO (First In First Out); cantitatea de informatie pastrata in acest buffer este monitorizata si mentinuta intre limite predeterminate prin intermediul unei bucle de reactie prin care se poate comanda modificarea parametrilor de cuantizare, care au o influenta semnificativa asupra debitului secventei codate. Astfel este posibil obtinerea unui debit constant cu o rezolutie ce depinde de continutul si dinamica imaginii (in sensul ca o mai mare miscare determina o mai mica rezolutie). O schema bloc foarte generala a codorului MPEG, ce ofera doar o imagine globala si foarte departe de complexitatea reala a acestuia este data in Figura 11.
Figura 11. Schema de principiu a codorului MPEG
In decodor (Figura 11) nu este necesara efectuarea unei estimari a miscarii, astfel ca structura acestuia rezulta mult simplificata fata de structura codorului, ceea ce constituie unul din principalele obiective ale standardului avand in vedere faptul ca numarul codoarelor este depasit cu mult de numarul decodoarelor; rezulta astfel o structura "asimetrica" pentru MPEG
Figura 12. Schema de principiu a decodorului
MPEG
4. Codarea video pentru MPEG-2.Nivele si profile
MPEG-2 este mai complex decat MPEG-1 si poate fi considerat un predecesor superior al acestuia utilizand toate facilitatile acestuia adaugand totodata altele noi MPEG-2 este de asemenea compatibil cu MPEG-1 unidirectional in sensul ca un decodor MPEG2 poate decoda toate secventele elementare MPEG-1 comune.
Standardul MPEG-2 dispune de patru nivele care definesc rezolutiile imaginii, de la formatul SIF la HDTV si cinci profile care determina setul instrumentelor de compresie utilizate si de aici rezultand compromisul intre rata de compresie si costul decodorului video. Anumite combinatii de nivele si profile de interes scazut nu sunt utilizate. Fig. 13 ilustreaza principalele caracteristici ale diferitelor nivele si profile ale standardului MPEG-2.
Cele patru nivele pot fi descrise succint dupa cum urmeaza:
nivelul scazut - corespunzator rezolutiei formatului SIF utilizat in MPEG1 - sau nivelul cu definitie limitata a imaginii LDTV (Limited Definition TV) - cu un debit cuprins intre 1 si 3.5 Mb/s.
nivelul mediu - corespunzator rezolutiei formatului 4:2:0 - reprezinta nivelul cu definitie standard SDTV (Standard Definition TV) cu debitul intre 4si 6 MHz.
nivelul inalt - 1440 - corespunzator aplicatiilor HDTV (cu rezolutii 1440 x 1152) - sau nivelul cu definitie marita EDTV (Enhanced Definition TV) cu debitul de 11 Mbps.
nivelul cu definitie inalta - HDTV (High Definition TV)(optim pentru rezolutii de pana la 1920 x 1152) cu debitul de 30Mb/s.
Descrierea profilelor se face ceva mai complicat
Exista o compatibilitate ascendenta intre profilele prezentate, aceasta insemnand ca un decodor realizat pentru un profil dat va fi capabil sa realizeze decodarea tuturor profilelor inferioare celui caruia ii este destinat (partea stanga a Figurii 5.13).
Cea mai importanta combinatie, utilizata atat in aplicatiile de difuziune in standardele europene cit si in cele americane, este cunoscuta sub denumirea - profilul principal al nivelului principal - MP@ML "Main Profile at Main Level". Acesta corespunde codarii video MPEG - 2 cu explorare intretesuta in formatul 4:2:0 cu o rezolutie de 720 480 la 30Hz sau 720 576 la 25Hz incluzin codarea tuturor tipurilor de cadre I, P, sau B. In mod dependent de compromisul dintre debitul binar si calitatea imaginii, debitul va fi in general cuprins intre 4Mb/s (determinand o calitate comparabila cu cea furnizata de sistemele analogice PAL, SECAM sau NTSC) si 9 Mb/s (aproape de calitatea de studio definita prin Recomandarea 601 CCIR).
Secventa program MPEG-2 este alcatuita din unul sau mai multe pachete PES (video, audio sau informatie privata) dar care in mod necesar trebuie sa aiba aceeasi referinta temporala (semnal de tact) - STC (System Time Clock). Acest tip de secventa este potrivita pentru aplicatiile care implica introducerea unui numar minim de erori prin propagare (rata erorii debit BER- Bit Error Rate < 10-10). Astfel de medii de propagare sunt denumite medii QEF- quasi error free. Acesta este in general cazul aplicatiilor multimedia bazidu-se pe CD-ROM sau hard disk-uri. In aceste cazuri packetele pot fi relativ lungi (de ex. 2048 bytes), si necesita o organizare a secventei de date similara MPEG-1.
Acest tip de multiplexare se va utilizeaza pentru stocarea informatiei video in format MPEG-2 pe discurile digitale versatile DVD - Digital Versatile Disk care sunt deja disponibile pe piata.
Figura 13. Nivelele si profilele dezvoltate de standardul MPEG-2
Politica de confidentialitate | Termeni si conditii de utilizare |
Vizualizari: 2448
Importanta:
Termeni si conditii de utilizare | Contact
© SCRIGROUP 2024 . All rights reserved