CATEGORII DOCUMENTE |
Statistica |
Identificarea legaturilor. Exprimarea formei legaturilor. Metoda regresiei
In functie de modul de prezentare si sistematizare a datelor statistice ce urmeaza a fi analizate, se pot utiliza, intr-o prima etapa, metode simple de verificare a existentei legaturii dintre caracteristicile studiate. Cu ajutorul acestor metode, se poate stabili existenta raporturilor de interdependenta, precum si o prima interpretare a legaturii, caracterizarea tendintei manifestate in ceea ce priveste sensul si intensitatea legaturii.
La cercetarea legaturii se pot utiliza metode analitice, care permit, prin calcularea unor indicatori, masurarea corelatiei, atat in ce priveste existenta si directia legaturii, cat si din punct de vedere al formei si intensitatii in care se realizeaza.
Metodele simple folosite pentru evidentierea existentei legaturilor, pentru stabilirea directiei si aprecierea formei acestora, sunt:
a) metoda seriilor de date interdependente;
b) metoda gruparilor;
c) metoda tabelului de corelatie;
d) metoda grafica.
a) Metoda seriilor de date interdependente se utilizeaza atunci cand se dispune de un numar mic de unitati observate. Valorile caracteristicilor studiate se prezinta paralel, sub forma unor serii statistice, ordonand valorile caracteristicii factoriale x, crescator sau descrescator. Prin compararea acestor siruri paralele de date, se poate observa daca in variatia lor exista vreo legatura sau nu si se poate constata directia manifestata.
b) Metoda gruparilor, prezentata in cadrul subcapitolului de sistematizare a datelor, se utilizeaza pentru evidentierea legaturilor, in cazul unui numar mare de unitati observate, cu o amplitudine mare a variatiei pentru caracteristica factoriala (x). Analiza legaturilor dintre doua caracteristici se realizeaza cu ajutorul gruparilor simple, efectuate stiintific, dupa o caracteristica de grupare (x) cu rol determinant in variatia caracteristicii rezultative (y). Rezultatele acestei grupari se trec intr-un tabel astfel: pe prima coloana se prezinta grupele dupa caracteristica factoriala (x), iar in urmatoarele, datele calculate pentru caracteristica rezultativa (y) in ce priveste valorile centralizate pe fiecare grupa, indicatorii medii si relativi. Pentru caracterizarea legaturii, ca tendinta generala, se pot folosi mediile de grupa. Acestea exprima ceea ce este esential si tipic in formarea fenomenului studiat. Cu cat numarul de grupe este mai mare, cu atat este mai fidel redata tendinta manifestata in variatia caracteristicilor, iar pentru a reda cat mai obiectiv densitatea de repartitie a frecventelor pe grupe, este necesar ca gruparea sa se faca pe intervale egale.
Prin prezentarea in paralel si compararea variatiei caracteristicii rezultative (y), conditionata de variatia caracteristicii factoriale, se asigura verificarea legaturii si aprecierii directiei acesteia.
c) Metoda tabelului de corelatie constituie o metoda ce are la baza o grupare combinata dupa doua caracteristici: una factoriala (x) si una rezultativa (y), numarul de grupe dupa cele doua caracteristici fiind egal. Se centralizeaza frecventele dupa ambele caracteristici si se obtine un tabel cu dubla intrare, numit tabel de corelatie.
Grupele dupa x se trec pe orizontala in ordine crescatoare, iar grupele dupa y pe verticala, in ordinea descrescatoare a caracteristicii rezultative. Legatura dintre cele doua variabile x si y, se poate caracteriza dupa modul de distribuire a frecventelor in interiorul tabelului, astfel:
- daca frecventele se distribuie fara nici o regularitate pe toata suprafata tabelului, atunci se apreciaza ca intre x si y exista o legatura slaba sau nu exista deloc legatura, cele doua caracteristici fiind independente;
- pozitia frecventelor in jurul diagonalei, ne informeaza despre intensitatea legaturii: concentrarea frecventelor in jurul diagonalei indica o legatura stransa, in caz contrar exista o legatura slaba;
- pozitia diagonalei indica, de regula, sensul legaturii si anume diagonala din stanga jos-dreapta sus, indica o legatura directa, iar diagonala stanga sus-dreapta jos, arata o legatura inversa.
d) Metoda grafica consta in reprezentarea in sistemul de axe rectangulare, a celor "n" cupluri de valori (xi yi) ale indicatorilor corelati, obtinandu-se graficul de corelatie sau corelograma. Pe axa absciselor (0x) se reprezinta valorile caracteristicii factoriale x, pe axa ordonatelor (0y) valorile caracteristicii rezultative y, iar intersectia cuplurilor de valori se marcheaza cu cate un punct. Cu cat dispunem de un numar mai mare de valori inregistrate, cu atat imaginea este mai sugestiva, obtinandu-se pe grafic un numar mai mare de puncte de intersectie, fapt pentru care acest grafic mai este denumit si "graficul norilor de puncte".
Prin imaginea oferita, graficul de corelatie permite verificarea existentei legaturii si sugereaza nu numai sensul legaturii, dar si forma de legatura. Astfel:
- daca punctele sunt dispersate la intamplare, fara nici o regularitate, iar linia trasata in mijlocul norului de puncte este paralela cu axa absciselor, rezulta ca legatura intre cele doua caracteristici nu este semnificativa sau nici nu exista;
- daca punctele se disperseaza in directia unei anumite linii, ce nu este paralela cu axa Ox, rezulta ca cele doua caracteristici sunt corelate;
- daca tendinta de concentrare a punctelor este in jurul diagonalei ce leaga coltul stang jos cu coltul drept sus a graficului, rezulta o legatura liniara directa, iar daca aceasta diagonala leaga coltul stang sus cu coltul drept jos, rezulta o legatura liniara inversa. In cazul legaturilor de tip liniar (directa sau inversa), variatia celor doua caracteristici este uniforma.
Formele legaturilor in cazurile prezentate anterior sunt reprezentate:
yi yi yi
xi xi xi
a.Lipsa legaturii b. Legatura liniara c. Legatura
liniara
directa inversa
Fig. 4.1. Forme ale legaturilor liniare
In practica, exista situatii cand intre x si y exista o legatura neliniara, de forma unei hiperbole, parabole, functii exponentiale sau de alt tip si variatia caracteristicii rezultative (y), sub influenta modificarii caracteristicii factoriale (x) este neuniforma.
Exemple de legaturi neliniare:
yi yi yi
xi xi xi
a.Legatura hiperbolica b. Legatura parabolica c.legatura
exponentiala
Fig.4.2. Forme de legaturi neliniare
Metoda grafica permite si o apreciere globala a intensitatii legaturii, dintre cele doua caracteristici studiate. Daca linia prin mijlocul norului de puncte se poate trasa usor si exista putine puncte dispersate fata de aceasta linie, atunci se apreciaza o legatura mai stransa, in caz contrar, o legatura mai slaba.
Metoda grafica reprezinta punctul de plecare al metodelor analitice de cercetare a dependentelor dintre fenomene.
Metodele analitice permit masurarea legaturii prin exprimarea matematica a acesteia si prin calculul unor indicatori ai corelatiei, asigurand astfel o imagine mai precisa a dependentelor dintre fenomene.
Principalele metode analitice sunt:
- metoda regresiei; - metoda corelatiei.
Metoda regresiei consta in cercetarea legaturilor existente intre fenomene cu ajutorul unor functii matematice, denumite functii de regresie.
In folosirea acestei metode este important sa se identifice functia ce exprima cel mai bine dependenta dintre caracteristicile studiate. Functia de regresie poate avea forme variate, fie de functie liniara sau neliniara, de productie sau logistica.
A.
Modelul regresiei simple (unifactoriale), exprima dependenta
caracteristicii rezultative y, numai in raport cu caracteristica factoriala
(x), facand abstractie de toti ceilalti factori de influenta, considerandu-I
constanti si este de forma:
unde e este variabila aleatoare cu dispersia constanta si media nula, numita eroare, ce insumeaza influenta factorilor neanregistrati.
Modelul este o reflectare schematica, simplificata a realitatii, construit dupa identificarea dependentelor si specificarea formei legaturii dintre cele doua fenomene.
a.1.
Modelul liniar sau regresia simpla
liniara are la baza ecuatia liniei drepte si este cel mai cunoscut model,
specific tipului de legatura dintre doua caracteristici ce variaza in progresie
aritmetica, adica:
unde a,b - sunt parametrii necunoscuti ai modelului, ce trebuie estimati
In vederea estimarii parametrilor a si b se utilizeaza, de regula, metoda celor mai mici patrate.
Daca dispunem de n observatii pereche (xi,
yi), atunci modelul se poate scrie sub forma:
yxi - valorile ecuatiei de regresie, calculate pentru toate unitatile observate, pe baza valorilor individuale xi si sunt numite valori teoretice ale lui y in functie de x; acestea se noteaza ca o medie, intrucat evidentiaza tendinta de realizare a corelatiei, respectiv tendinta de variatie a lui y, daca ar fi depins numai de variatia lui x;
xi - valorile individuale ale caracteristicii factoriale, obtinute din observare;
a - parametru cu sens geometric de "ordonata de origine a dreptei", fiind valoarea lui y cand x = 0; nu are semnificatie independenta, putand avea sens pozitiv sau negativ;
b- parametru numit "coeficient de regresie", ce arata cu cat se modifica y, daca x se modifica cu o unitate; in graficul de corelatie, b indica panta liniei drepte.
Semnul coeficientului de regresie b, indica sensul legaturii, astfel daca:
b> Þ legatura directa;
b=0 Þ lipsa legaturii;
b< Þ legatura inversa.
Operatia de inlocuire a termenilor inregistrati, obtinuti din observare (yi), cu termenii teoretici, obtinuti din calcul ( yxi), ce elimina variatiile intamplatoare si evidentiaza tendinta esentiala, se numeste ajustare.
Functia de ajustare, reprezentata
printr-o dreapta de regresie este:
Iar valorile inregistrate sunt de forma:
Ajustarea se exprima astfel:
Se poate spune ca estimarea parametrilor se
bazeaza pe determinarea functiei care minimizeaza erorile de ajustare. In cazul
in care factorul x este determinant pentru y, iar legatura este liniara, atunci
valorile ecuatiei de regresie ( yxi) trebuie sa prezinte abateri minime fata de
valorile inregistrate yi.
Intrucat aceste abateri se pot produce intr-un sens sau altul, ele sunt ridicate la patrat, iar metoda se numeste metoda celor mai mici patrate.
Determinarea parametrilor a si b se face
prin minimizarea functiei de doua variabile, ce are forma:
sau
Minimul functiei, se obtine prin derivarea functiei:
Rezulta sistemul:
Sa + Sbxi - Syi = 0
Saxi +Sbxi2 - Sxiyi = 0
Din care se obtine sistemul de ecuatii:
na + bSxi = Syi
aSxi + bSxi2 = Sxiyi
Prin
rezolvarea acestui sistem se obtin parametrii a si b, iar pe baza lor se
calculeaza valoarea ecuatiei de regresie pentru fiecare valoare a
caracteristicii x, respectiv:
yxi = a + bxi , iar apoi se trece la ajustare
Daca functia de ajustare ( yxi ) este corect aleasa si datele utilizate satisfac conditia de omogenitate si volum, atunci seria ajustata exprima clar tendinta manifestata in dependenta fenomenului.
Avand calculate Sxi , Syi si cunoscand valoarea lui n, se pot determina:
Inlocuind aceste valori in ecuatia
dreptei de regresie se obtine:
x =a + b x si rezulta a = y - b x ,
ceea ce dovedeste ca dreapta de regresie trece prin punctul mediu ( x , y ).
a.2. Regresia simpla neliniara: parabola, exponentiala, hiperbolica
a.2.1. Modelul parabolei de gradul II este de forma:
y = a +bx +cx2 + e
Functia de ajustare este reprezentata prin ecuatia de regresie:
yxi = a +bxi +cxi2 ; i = 1,2,.,n
unde a,b,c - parametrii necunoscuti
ce trebuie estimati. Similar modelului liniar, se utilizeaza metoda celor mai
mici patrate pentru estimarea lui a,b,c, prin minimizarea functiei:
obtinand sistemul de ecuatii normale:
na + bSxi + cSxi2 = Sy
aSxi +bSxi2 +cSxi3 = Sxiyi
aSxi2 +bSxi3 + cSxi4 =Sxi2yI
Valorile obtinute pentru parametrii a,b,c se introduc in ecuatia de regresie si se determina valoarea ecuatiei pentru fiecare valoare a caracteristicii xI , dupa care se trece la ajustare.
a.2.2. Modelul exponential are forma: y = abx +e
iar functia de ajustare este functia exponentiala:
yxi = abxi; i =1,2,.n; a,bIR+
Functia se logaritmeaza transformand-o in model liniar:
lg yxi = y' ; lga = a' si lgb = b'
atunci se obtine: y' = a' +b' xi
Se aplica in continuare metoda celor mai mici patrate, ca si in cazul regresiei liniare simple si se obtine sistemul de ecuatii normale:
na' +b'Sxi = Syi'
a'Sxi + b'Sxi2 = Sxiyi'
Parametrii a si b se obtin prin antilogaritmare, se inlocuiesc in ecuatia de regresie, se obtin valorile lui yxi si se trece la ajustare.
a.2.3. Modelul hiperbolic exprima dependenta inversa dintre doua caracteristici si are forma:
Ajustarea se realizeaza prin ecuatia de
regresie:
Pentru estimarea parametrilor a, b, se utilizeaza metoda celor mai mici patrate, parametrii obtinandu-se prin rezolvarea sistemului de ecuatii normale:
In continuare ajustarea se realizeaza
prin parcurgerea acelorasi pasi ca la modelele anterioare.
B. Modelul regresiei multiple (multifactoriale), exprima dependenta caracteristicii rezultative (y), in raport cu un numar mare de factori, respectiv de caracteristici factoriale si are forma:
Y = f(x1, x2,.xk,.xm) + e; xk - caracteristici factoriale independente
b.1. Regresia multipla liniara este cel mai cunoscut model multifactorial, utilizat atunci cand caracteristica rezultativa (y) este liniar dependenta fata de caracteristicile factoriale (xk) si se exprima cu relatia:
yi = a + b1x1i + b2x2i +.+ bkxki +.+ bmxmi +ei
i = 1,2,., n - numar de observatii
k= 1,2,., m - numarul caracteristicilor factoriale
bk, k = 1,2,., m - coeficientii de regresie multipla care arata cu cat se modifica y, daca xk se modifica cu o unitate.
Parametrii se obtin utilizand metoda
celor mai mici patrate, minimizand functia:
Similar modelului regresiei simple liniare, prin derivarea functiei in raport cu toti parametrii a, bk, se obtine sistemul de ecuatii normale cu k = 1, 2,.,m caracteristici factoriale si m + 1 ecuatii:
na + b1Sx1i + b2Sx2i + .+ bmSxmi = Syi
aSx1i + b1Sx1i2 +b2Sx1ix2i +.+ bmSx1ixmi = Sx1iyi
aSx2i + b1Sx1ix2i + b2Sx2i2 +.+ bmSx2ixmi = Sx2iyi
.
.
aSxmi + b1Sx1Ixmi +.+ bmSxmi Sxmiyi
b.2. Regresia multipla curbilinie se utilizeaza in cazul cand caracteristicile factoriale actioneaza prin multiplicarea lor, iar influentele sunt proportionale cu valoarea acestora.
Modelul are forma:
Liniarizarea modelului se face prin
logaritmare, dupa care se estimeaza parametrii functiei liniare, prin metoda
celor mai mici patrate. Procedeul este similar regresiei simple, dar calculele
sunt mai laborioase.
In practica, atunci cand legatura intre fenomene este slaba, metoda regresiei trebuie imbinata cu metoda corelatiei, ce prin calculul indicatorilor, masoara intensitatea legaturii.
Politica de confidentialitate | Termeni si conditii de utilizare |
Vizualizari: 2372
Importanta:
Termeni si conditii de utilizare | Contact
© SCRIGROUP 2024 . All rights reserved