CATEGORII DOCUMENTE |
Agricultura | Asigurari | Comert | Confectii | Contabilitate | Contracte | Economie |
Transporturi | Turism | Zootehnie |
Calitatea ajustarii folosind metoda regresiei, se apreciaza in functie de coeficientul de determinatie, R2. Informatia continuta in date, nu este toata condensata in estimatorii: si , R2 si SSE, ci se poate gasi si in reziduuri, care contin partea de variatie neexplicata a variabilei dependente. Daca analizand reziduurile, se constata prezenta unei structuri, inseamna ca acestea sunt inca purtatoare de informatie, care s-ar putea modela. Modelul ales trebuie modificat corespunzator.
Statisticianul Anscombe, in 1973, a gasit patru seturi de date care au particularitatea de a furniza aceleasi rezultate statistice. Pentru cele patru grupuri de date, se gaseste aceeasi dreapta de regresie , aceeasi abatere reziduala 1.236 si acelasi coeficient de determinatie 0.667, ceea ce inseamna ca variabila x explica doua treimi din varianta variabilei y.
Grupul A |
Grupul B |
Grupul C |
Grupul D |
||||||||
x |
y |
|
x |
y |
|
x |
y |
|
x |
y |
|
Tabelul 1.19. Grupurile de date ale lui Anscombe
Totusi aceste patru seturi de date corespund unor situatii foarte diferite, prezentate in Tabelul 1.20, si in Figurile 1.18, 1.19, 1.20 si 1.21. Graficele prezinta datele empirice si dreapta de regresie intr-o diagrama XY (Scatter).
Numai in cazul A, Figura 1.18, se justifica utilizarea regresiei liniare. Pentru celelalte trei cazuri, aplicarea metodei regresiei nu are sens.
Figura 1.18. Grupul A de date si dreapta
de regresie
Figura 1.19. Grupul B de date si dreapta de regresie
Pentru datele din grupul B, modelul nu este corect specificat. Graficul din Figura 1.19 indica utilizarea unui model neliniar.
Pentru ansamblul C, datele sunt aliniate dupa o dreapta, dar nesansa de a contine o valoare aberanta pentru x=13, face ca dreapta de regresie sa nu treaca prin nici unul din puncte.
Figura 1.20. Grupul C de date si dreapta de regresie
Pentru grupul D, dreapta de regresie
pare atrasa de punctul aberant, in x=19
sau nu sunt suficiente date pentru a determina panta dreptei
Figura 1.21. Grupul D de date si dreapta de regresie
Metodele rezistente pentru rezolvarea situatiilor in care se manifesta existenta valorilor aberante, recurg la proceduri iterative si respecta acelasi criteriu, cel al minimizarii sumei patratelor abaterilor valorilor observate de la dreapta de regresie (varianta reziduurilor sa fie minima), ca si metoda regresiei,
.
Aceste metode sunt:
metoda celor trei puncte si
metoda lui Theil.
Utilizarea medianei, in locul mediei, confera rezistenta acestor metode, pentru ca in stabilirea medianei nu se tine seama de valorile extreme ale variabilei.
Metoda celor trei puncte consta in:
determinarea cuantilelor de ordinul 1/3 si 2/3 ale variabilei x, notate cu x1/3 si x2/3;
divizarea datelor in trei subansamble, astfel:
I : xi < x1/3,
II : x1/3 < xi < x2/3,
III : xi > x2/3;
determinarea a doua puncte (xI, yI) si (xIII, yIII) ca puncte mediane ale subansamblelor I si III, luand ca abscisa mediana absciselor acestor puncte si ordonata, mediana ordonatelor lor;
calculul pantei dreptei care trece prin cele doua puncte:
= (yIII - yI) / (xIII - xI);
si se determina ca mediana a cantitatilor yi - xi.
Desi metoda se numeste a celor trei puncte, in acest caz, sunt numai doua puncte; al treilea apare in studiul curbelor de crestere.
Se utilizeaza pentru exemplificare, grupul C de date al lui Anscombe si se parcurg etapele descrise in continuare.
Se ordoneaza crescator cele 11 valori ale variabilei x, pentru a determina cuantilele de ordinul 1/3 si 2/3. Se stabilesc probabilitatile cumulate crescator sub forma unei scari cu pasul 1/11. Prin interpolare se stabilesc ce valori ale lui x, corespund probabilitatilor 0.33 si 0.67. Cuantila de ordinul 1/3 este 6.66, iar cea de ordinul 2/3 este 10.33. In Tabelul 1.21 sunt prezentate calculele pentru determinarea cuantilelor.
Se impart cele 11 observari in trei grupe, in functie de cele doua cuantile determinate. In Tabelul 1.22 se disting aceste grupe.
Pentru primul punct (xI, yI), mediana valorilor x este 5, iar a valorilor y, 5.73, ca fiind valorile centrale. Pentru punctul (xIII, yIII), avand un numar par de elemente, mediana valorilor x este media aritmetica simpla a valorilor 12 si 13, adica 12.5, iar mediana valorilor y, se obtine dupa ordonarea crescatoare a seriei acestora, ca medie aritmetica intre valorile centrale 8.15 si 8.84, adica 8.495.
Se calculeaza panta dreptei ce uneste cele doua puncte de coordonate (5, 5.73), si (12.50, 8.495). Aceasta valoare este =0.3687.
Termenul constant , mediana cantitatilor yi - a1xi, se obtine dupa ordonarea crescatoare a acestora, ca fiind termenul lor central, 3.821.
xi |
Probabilitati cumulate |
Ordin cuantile |
Cuantilele x1/3 si x2/3 |
| |||
Tabelul 1.21. Calculul valorilor x1/3 si x2/3
xi |
yi |
xi |
yi |
yi -a1xi | ||
Punctul 1 | ||||||
a1 = | ||||||
a0 = | ||||||
Punctul 2 | ||||||
Tabelul 1.22. Calculul parametrilor de regresie
Cu modelul astfel determinat , se obtin valorile teoretice, situate pe o dreapta aflata in imediata apropiere a datelor observate. Aceasta dreapta de regresie nu mai este atrasa de punctul aberant, fiind astfel mult mai buna, pentru ca trece foarte aproape de majoritatea valorilor observate ale grupului C de date.
Figura 1.22. Grupul de date C si noua dreapta de regresie
Pe graficul din Figura 1.22 se observa ca noua dreapta de regresie trece prin aproape toate punctele, care sunt aliniate si nu mai este atrasa de punctul aberant.
Metoda lui Theil consta in parcurgerea urmatorilor pasi, pentru determinarea unui model liniar :
se dispune de n puncte (xi, yi); se considera cupluri de puncte;
se uneste fiecare cuplu de puncte printr-o dreapta; se calculeaza panta fiecarei drepte;
valoarea retinuta pentru parametrul este mediana acestor pante ale dreptelor;
se determina ca mediana a cantitatilor ale dreptelor.
Cu parametrii astfel determinati se obtine o dreapta care va fi mai buna decat dreapta de regresie initiala, atrasa de punctul aberant.
Aplicarea metodei lui Theil pentru grupul de date C al lui Anscombe, conduce la urmatoarele rezultate, prezentate in Tabelele 1.23, 1.24 si 1.25.
| ||||||||||
|
Tabelul 1.23. Calculul diferentelor
| ||||||||||
Tabelul 1.24. Calculul diferentelor
Calculele pantelor celor 55 de drepte si mediana lor, folosind functia MEDIAN() din Excel, precum si cantitatile ce reprezinta termenii liberi si mediana lor, sunt prezentate in Tabelul 1.25.
Dreapta de regresie este , iar in Tabelul 1.26 sunt prezentate valorile teoretice obtinute prin metoda lui Theil, si cele obtinute prin metoda celor trei puncte. Graficul din Figura 1.23 prezinta cele doua drepte de regresie obtinute prin metoda celor 3 puncte si prin metoda lui Theil.
|
|
|
|
|
Me=b0 |
||||
|
||||
|
||||
|
||||
|
||||
|
|
|||
|
||||
|
||||
|
||||
|
||||
|
||||
|
||||
|
||||
|
||||
|
||||
|
||||
|
||||
|
||||
|
||||
|
||||
|
||||
|
||||
|
||||
|
||||
|
||||
|
||||
|
||||
|
||||
|
||||
|
||||
|
||||
|
||||
|
||||
|
||||
|
||||
|
||||
|
||||
|
||||
|
||||
|
||||
|
||||
|
||||
|
||||
Me=b1 |
|
Tabelul 1.25. Calculul parametrilor noii drepte de regresie
Grupul C |
Regresia liniara |
Met. 3 puncte |
Metoda Theil |
|
x |
y |
|
|
|
Tabelul 1.26. Prezentarea comparativa a rezultatelor
Se observa in Tabelul 1.26, ca valorile teoretice prin metoda lui Theil coincid cu valorile yi, cu exceptia punctului aberat de coordonate (13, 12.74).
Desi toate celelalte erori sunt 0, totusi este mai mare decat in cazul metodei celor 3 puncte.
Figura 1.23. Compararea metodelor rezistente
Ambele metode sunt bune. Cu toate acestea faptul ca regresia lui Theil trece prin toate punctele, cu exceptia celui aberant, face ca aceasta din urma sa fie preferata fata de celelate variante. O alta solutie ar fi sa se elimine punctul aberant conform metodei grafice, care indica faptul ca punctul izolat influenteaza panta dreptei de regresie. Atunci punctele sunt aliniate dupa o dreapta a carei ecuatie este: , foarte apropiata de cea obtinuta prin metoda Theil.
Politica de confidentialitate | Termeni si conditii de utilizare |
Vizualizari: 2251
Importanta:
Termeni si conditii de utilizare | Contact
© SCRIGROUP 2024 . All rights reserved