CATEGORII DOCUMENTE |
Astronomie | Biofizica | Biologie | Botanica | Carti | Chimie | Copii |
Educatie civica | Fabule ghicitori | Fizica | Gramatica | Joc | Literatura romana | Logica |
Matematica | Poezii | Psihologie psihiatrie | Sociologie |
REGRESIE SI CORELATIE
Notiunea, importanta si felul legaturilor dintre fenomene
Metode elementare de studiere a legaturilor dintre fenomene
Metode analitice de studiere a legaturilor dintre fenomene
Corelatia neparametrica
Notiunea, importanta si felul legaturilor dintre fenomene
In statistica, legaturile care se stabilesc in mod necesar intre diferite fenomene colective sau intre caracteristici diferite ale aceluiasi fenomen colectiv se numesc corelatii.
In viata sociala, corelatia inseamna o relatie sau o legatura de forme diferite intre doua sau mai multe variabile privind un fenomen sau diferite fenomene colective.
In notiunea de corelatie se includ legaturi de conditionare reciproca, de cauzalitate, de subordonare, de influenta reciproca intre diferite fenomene colective. Procedeele de cercetare statistica a acestor legaturi se numesc tot corelatie.
Legaturile in viata fenomenelor sociale se numesc legaturi stochastice sau statistice. Aceste legaturi se caracterizeaza prin faptul ca o caracteristica exercita o anumita influenta asupra altei caracteristici, ii determina intr-o anumita masura variatia, insa asupra acesteia mai actioneaza si alte caracteristici, care, din punct de vedere al legaturii, se considera intamplatoare.
Legatura statistica dintre doua sau mai multe caracteristici exprimate numeric poarta denumirea de corelatie.
Intre doua sau mai multe fenomene exista corelatie daca intre ele este o anumita legatura logica.
Studiul corelatiei este indreptat spre:
- identificarea existentei legaturii;
- stabilirea sensului si formei legaturii;
- determinarea gradului de intensitate a legaturii.
Multimea legaturilor statistice se poate grupa dupa mai multe criterii:
Dupa numarul caracteristicilor corelate, legaturile dintre fenomene pot fi:
legaturi simple - exprima variatia variabilei rezultative y in functie de o singura variabila factoriala x.
legaturi multiple - exprima variatia variabilei rezultative y in functie de variatia simultana a mai multor variabile factoriale x1, x2, , xn.
Dupa sensul sau directia legaturii, acestea pot fi:
legaturi directe - exprima modificarea lui y in acelasi sens cu variabila x.
legaturi inverse - exprima modificarea lui y in sens contrar variabilei x.
Dupa forma legaturilor, intalnim:
legaturi rectilinii
legaturi curbilinii
Analiza legaturilor statistice vizeaza estimarea modelului de regresie si masurarea intensitatii legaturii dintre variabile.
Pentru acesta se utilizeaza un ansamblu de metode elementare si metode analitice.
Metodele elementare ofera informatii asupra naturii si caracteristicilor legaturii cercetate, permitand cunoasterea formei si directiei legaturii.
Metodele analitice sunt precise si concrete, permitand masurarea si caracterizarea cifrica a gradului de legatura, a intensitatii acesteia.
Metode elementare de studiere a legaturilor dintre fenomene
Sunt urmatoarele:
A. Metoda seriilor paralele interdependente
Consta in stabilirea legaturii dintre fenomene pe baza compararii indicatorilor proveniti din doua serii paralele, din care una reprezinta variatia variabilei factoriale x si cealalta variabila rezultativa y. In comparatie se cuprind serii care privesc variatia fenomenelor in timp, in teritoriu sau calitative.
Daca se compara serii de timp, termenii acestora se ordoneaza cronologic, iar daca se compara serii teritoriale sau calitative, termenii lor se ordoneaza in ordine crescatoare sau descrescatoare a variabilei factoriale x. In paralel se inscriu termenii corespunzatori ai variabilei rezultative y.
Prin compararea seriilor interdependente se poate evidentia existenta si directia legaturii.
Astfel, daca ambele variabile comparate variaza in acelasi sens, exista o legatura directa. Daca variatia lor este de sens diferit, corelatia este inversa.
Daca cele doua variabile variaza in mod independent sau una variaza si cealalta ramane constanta, nu exista legatura.
Aceasta metoda se aplica in cazul seriilor cu un nr. relativ mic de variante, cand exista corespondenta de la valoare la valoare (xi, yi).
B. Metoda gruparilor statistice
Se aplica in cazul cand cele doua variabile corelate prezinta un nr. mare de variante.
Aceasta metoda consta in impartirea unitatilor statistice dupa variatia variabilei factoriale si calcularea indicatorilor sintetici ai caracteristicii rezultative pentru fiecare grupa in care a fost impartita colectivitatea.
Metoda ofera posibilitatea aprecierii existentei legaturii si a sensului ei, dar nu masoara intensitatea legaturii.
In cazul legaturilor simple se utilizeaza grupari simple, iar in cazul legaturilor multiple si vor utiliza gruparile combinate.
O forma mai dezvoltata a acestei metode este metoda tabelului de corelatie care se utilizeaza atunci cand nr. perechilor de valori ale variabilelor corelate este foarte mare. In cadrul tabelului de corelatie gruparea se face concomitent dupa ambele variabile x si y. Se recomanda ca nr. intervalelor de variatie sa fie acelasi pentru ambele variabile.
Cu ajutorul tabelului de corelatie se poate stabili existenta legaturii dintre variabile, directia si intensitatea ei. Daca frecventele sunt dispersate uniform in intreg spatiul tabelului, atunci intre variabile nu exista nici un fel de legatura. Daca frecventele se concentreaza in jurul unei drepte sau a unei curbe de un anumit tip, inseamna ca intre variabile exista o legatura a carei forma este data de dreapta sau curba respectiva. Cu cat concentrarea frecventelor in jurul dreptei sau curbei este mai mare, cu atat se poate aprecia ca intensitatea legaturii dintre variabile este mai mare, si invers.
C. Metoda grafica
Permite prezentarea intr-o forma geometrica, expresiva si vizuala a legaturii dintre doua variabile. Se bazeaza pe sistemul de axe rectangulare, variabila factoriala se fixeaza pe abscisa, iar cea rezultativa pe ordonata. Perechile de valori corelate se reprezinta prin cate un punct in cadrul graficului. Reprezentarea acestor puncte in grafic ofera imaginea campului de corelatie, asemanatoarea cu un nor de puncte.
Dupa modul de distribuire a acestor puncte in spatiul graficului, se poate aprecia existenta, forma, directia si intensitatea legaturii dintre cele doua variabile. Concentrarea punctelor in jurul anumitor drepte sau curbe ne va indica faptul ca intre variabile exista o legatura, iar dreapta sau curba respectiva va indica forma legaturii.
y
Daca punctele se disperseaza uniform
pe intreg spatiul graficului sau se concentreaza in jurul unei drepte
paralele cu una din axe, atunci intre variabile nu exista
legatura.
y |
x
Metode analitice de studiere a legaturilor dintre fenomene
Cercetarea concreta a legaturii dintre fenomene numai pe baza metodelor elementare este insuficienta. Informatiile obtinute pe baza lor se completeaza cu metodele analitice.
Metodele analitice permit exprimarea matematica a formei legaturii si masurarea numerica a intensitatii legaturii. Sunt cunoscute sub denumirea de metode de regresie si corelatie.
Modelele de regresie au ca scop reprezentarea alurii distributiei a doua variabile corelate. Prin curbele de regresie se prezinta corespondenta intre perechile de valori (xi,yi).
Cele mai utilizate modele de regresie in studiul fenomenelor si proceselor social-economice sunt:
A. regresie si corelatie liniara
B. regresie si corelatie curbilinie
C. regresie si corelatie multipla
Stabilirea si analiza modelului de regresie pp. efectuarea urmatorilor pasi:
-construirea corelogramei, respectiv a norului de puncte;
-aproximarea, pe baza ajustarii corelogramei, a formei legaturii printr-un model teoretic si formularea ecuatiei corespunzatoare modelului de regresie ales;
-estimarea parametrilor ecuatiei de regresie si interpretarea regresiei in functie de semnul si valoarea lor;
-testarea semnificatiei parametrilor de regresie.
A. Regresie si corelatie liniara
Cazul cel mai simplu al legaturii dintre doua variabile x si y este cel al regresiei liniare de forma:
y = a + bx
Aceasta relatie se numeste ecuatie de regresie si se reprezinta grafic printr-o dreapta definita de parametrii de regresie, si anume:
a = ordonata la origine si arata valoarea variabilei y cand x = 0. Poate lua atat valori pozitive, cat si negative.
b = panta dreptei, se mai numeste si coeficient de regresie. Semnul parametrului b indica directia legaturii dintre cele doua variabile corelate, astfel:
-daca b>0, indica o legatura directa
-daca b=0, nu exista legatura
-daca b<0, indica o legatura inversa.
Valoarea acestui parametru arata gradul de dependenta dintre variabile, respectiv cu cat creste sau scade y la o crestere sau la o scadere a variabilei x cu o unitate.
Determinarea parametrilor dreptei de regresie se poate face prin diverse metode, cea mai utilizata fiind metoda celor mai mici patrate.
Principiul de baza al acestei metode este ca suma patratelor diferentelor dintre valorile reale ale lui y si valorile teoretice date de ecuatia de regresie sa fie minima.
minim, respectiv
minim.
Rezolvarea problemei de minim impune doua conditii:
anularea derivatelor partiale de ordinul I ale sumei in raport cu a si b;
matricea derivatelor partiale de ordinul II sa fie pozitiv definita.
Aplicand conditia ca derivatele partiale ale sumei in raport cu a si b sa fie nule, obtinem sistemul de ecuatii normale:
Prin rezolvarea sistemului de ecuatii normale printr-una din metodele cunoscute se obtin parametrii a si b.
Prin metoda lui Cramer sau a determinantilor, parametrii a si b se determina astfel (pentru seriile simple):
In cazul cand se studiaza legatura dintre doua variabile folosind date grupate intr-un tabel de corelatie, deci serii cu frecvente, sistemul de ecuatii normale devine:
Determinarea parametrilor a si b prin aceeasi metoda conduce la rezultatele:
Pe baza parametrilor a si b astfel determinati se obtine dreapta de regresie. Aceasta ofera doar imaginea formei legaturii dintre doua variabile.
Pentru a determina cat de intensa este legatura dintre variabilele corelate se utilizeaza coeficientul de corelatie si raportul de corelatie.
Coeficientul de corelatie se foloseste pentru masurarea legaturii in cazul unei regresii liniare simple. Formulat de statisticianul Pearson, coeficientul de corelatie se calculeaza ca o medie aritmetica simpla a produsului abaterilor celor doua variabile fata de medie, astfel:
, unde:
xi = caracteristica factoriala;
yi = caracteristica rezultativa;
= mediile celor doua caracteristici;
= abaterea medie patratica a celor doua caracteristici.
Daca in aceasta relatie inlocuim pe , cu expresiile lor dezvoltate si efectuam simplificarile posibile, se ajunge la formula:
-pt. serii simple
-pt. serii cu frecventa
Valoarea coeficientului de corelatie este cuprinsa intre -1 si +1. Cele doua valori extreme reprezinta o legatura liniara perfecta intre cele doua variabile, directa sau inversa. Valoarea zero semnifica absenta legaturii.
Raportul de corelatie () se bazeaza pe descompunerea dispersiei totale a variabilei y pe factori de influenta. Relatia sa de calcul este:
, unde:
= dispersia valorilor reale ale variabilei y;
= dispersia valorilor teoretice ale variabilei y.
In cazul unei legaturi liniare simple, ecuatia raportului de corelatie devine:
In cazul seriilor cu frecvente:
Raportul de corelatie are valori cuprinse intre 0 si 1, cu urmatoarele semnificatii:
-= 1 arata ca intre variabile exista legatura;
-= 0 intre variabile nu exista legatura.
Valoarea la patrat a raportului de corelatie prezinta raportul de determinatie:
si arata ponderea influentei factorului x asupra variatiei variabilei y.
Ex. Consideram urmatoarele date conventionale privind legatura dintre costul mediu al tomatelor si pretul mediu al acestora:
Anii |
Costul mediu al tomatelor xi |
Pretul mediu al tomatelor yi |
|
xiyi |
|
|
| ||||||
TOTAL |
Sa se studieze forma si intensitatea legaturii dintre cele doua variabile.
Pentru determinarea existentei legaturii dintre cele doua variabile se construieste graficul urmator:
Figura 1 Legatura dintre costurile medii si preturilor medii ale tomatelor la S.C. Seromgal S.A. Galati
Corelograma din figura 1 evidentiaza o legatura directa, liniara intre costurile medii ale tomatelor si preturile medii ale acestora. Prin urmare, estimarea preturilor medii in functie de costurile medii se efectueaza cu ajutorul ecuatiei de regresie liniara:
Elementele de calcul necesare pentru determinarea parametrilor ecuatiei de regresie sunt sintetizate in tabel. Pentru determinarea parametrilor ecuatiei de regresie se rezolva urmatorul sistem de ecuatii:
a = 384,58
b = 0,75
Cu aceste valori ale parametrilor, ecuatia estimata devine: . Estimatia parametrului de regresie b, avand o valoare pozitiva, arata ca intre cele doua variabile analizate exista o legatura directa. De asemenea, scoate in evidenta gradul de dependenta dintre variabile, si anume: la o crestere cu o unitate a costului mediu, pretul creste cu 0,75 unitati.
Alaturi de stabilirea liniei de regresie este necesar sa se masoare si intensitatea legaturii dintre variabile cu ajutorul coeficientului de corelatie si al raportului de corelatie.
Coeficientul de corelatie se poate determina prin urmatoarea relatie:
Raportul de corelatie se determina cu ajutorul relatiei:
Se constata ca cei doi indicatori ai intensitatii sunt egali, rezultand ca legatura dintre variabilele considerate este liniara, directa si foarte stransa.
B. Regresie si corelatie curbilinie
O mare parte a legaturilor dintre variabilele din domeniul economic se incadreaza in modele de regresie curbilinie de tipul: hiperbola, parabola, curba exponentiala.
a. Regresie si corelatie de tip hiperbolic
Legaturile de tip hiperbolic pot fi descrise de ecuatia:
Parametrii modelului se estimeaza pe baza sistemului de ecuatii:
Prin regula lui Cramer obtinem:
Fiind vorba de o legatura curbilinie, intensitatea legaturii se determina numai cu ajutorul raportului de corelatie.
Ex. In scopul cercetarii legaturii dintre volumul productiei (mii lei) si costul unitar de productie (lei), se considera urmatoarele date:
Prod. xi |
Cost yi |
|
|
|
|
|
Ec. de regresie:
|
Sa se studieze forma si intensitatea legaturii dintre cele doua variabile.
- forma legaturii: hiperbola -
- intensitatea legaturii - raportul de corelatie:
> 0 exista legatura intre cele doua variabile.
b. Regresie si corelatie de tip parabolic
Pentru exprimarea acestui model se utilizaeza, de regula, parabola de gradul doi, de forma:
y = a+bx+cx2
Parametrii a, b, c se determina prin metoda celor mai mici patrate, din sistemul:
Intensitatea corelatiei parabolice se masoara cu ajutorul raportului de corelatie:
Ex. Analizandu-se o serie de probe de minereu de cupru pentru continutul in arsen si telur (miimi de procente ), s-au obtinut datele:
Cont. in arsen xi |
Cont. in telur yi |
|
xiyi |
|
|
|
|
|
Sa se studieze forma si intensitatea legaturii dintre cele doua variabile.
-forma legaturii: parabola: y = a+bx+cx2
a = -5,83; b = 0,73; c = -0,0085
b > 0 → legatura directa
-intensitatea legaturii:
→ exista legatura stransa.
c. Regresie si corelatie multipla
Cazul regresiei si corelatiei intre doua variabile este o situatie particulara. In practica, variatia unei variabile y este dependenta de actiunea complexa a unei multitudini de factori.
In acest caz este vorba de legaturi multiple.
Legaturile multiple de corelatie se stabilesc intre doua sau mai multe caracteristici factoriale si o caracteristica rezultativa. Astfel de legaturi se intalnesc si in cazul fenomenelor economice complexe.
In cazul legaturilor multiple, variabilele factoriale au influente diferite asupra variabilei rezultative. Factorii cauzali se ierarhizeaza in ordinea importantei actiunii lor asupra fenomenului efect si se iau in calcul cei care au o actiune importanta.
Considerand o vaxriabila dependenta y si k variabile independente (x1, x2, , xk) legate intre ele printr-o functie, atunci in cazul unei legaturi liniare multiple va avea forma:
, unde:
a0 = parametrul care exprima influenta celorlalti factori considerati cu actiune constanta, in afara de factorii cauzali luati in calcul;
ai = coeficienti de regresie multipla care arata cu cat variaza variabila rezultativa, atunci cand variabila factoriala xi se modifica cu o unitate.
Parametrii a1, a2, , ak se determina cu ajutorul metodei celor mai mici patrate, punand conditia impusa de aceasta.
Masurarea intensitatii corelatiei multiple se poate efectua cu ajutorul raportului de corelatie multipla, in cazul unei regresii neliniare sau cu ajutorul coeficientului de corelatie multipla si a raportului de corelatie multipla, in cazul unei regresii multiple liniare.
Raportul de corelatie multipla are forma:
.
Corelatia neparametrica
Coeficientii corelatiei neparametrice se determina independent de forma legaturii. Ei se stabilesc fie in functie de abaterile individuale ale variabilelor corelate fata de media lor, fie in functie de rangurile perechilor de valori ale variabilelor corelate.
Pentru aceasta, unitatile statistice se ordoneaza in sens crescator sau descrescator a valorii variabilei factoriale si apoi se atribuie cate un rang fiecarei variante. Deoarece nu opereaza direct cu nivelurile caracteristicilor, aceste metode sunt aplicabile si in cazul corelatiei dintre caracteristici calitative.
In cadrul metodelor neparametrice de studiere a corelatiei, cele mai cunoscute sunt:
coeficientul de concordanta Fechner,
coeficientii de corelatie a rangurilor,
coeficientul de asociere.
Coeficientul de concordanta Fechner
Statisticianul german G. Fechner a stabilit la sfarsitul secolului 19 un indicator al intensitatii corelatiei calculat pe baza concordantelor si discordantelor diferentelor dintre termenii consecutivi ai fiecarei dintre cele doua variabile corelate sau cu ajutorul concordantelor si respectiv discordantelor abaterilor calculate fata de mediile variabilelor corelate. Se calculeaza sub doua forme:
-coeficient simplu
-coeficient ponderat.
Coeficientul de concordanta simplu - se defineste prin relatia:
, unde:
c = numar de concordante de semn ale abaterilor;
d = numar de disconcordante de semn ale abaterilor.
n = numarul perechilor de valori corelate.
Daca unele diferente sau sunt nule, atunci nu se considera nici concordanta, nici discordanta, ci este exclusa din calcul.
Coeficientul de concordanta ponderat - se determina prin relatia:
, unde:
C = suma produselor pozitive,
D = valoarea absoluta a sumei produselor negative.
O alta varianta a coeficientului ponderat de concordanta Fechner se apropie de coeficientul de corelatie Pearson si se determina astfel:
Coeficientul Fechner poate varia intre -1 si +1, cu semnificatia unei legaturi directe sau inverse mai mult sau mai putin intense.
Ex. Gruparea a 10 judete dupa nr. cinematografelor si nr. spectatorilor:
Jud |
Nr. cinematogr. xi |
Nr. spect. yi |
|
|
c,d |
|
|
|
|
c c c c d c c d d c | |||||||
Total |
c=7 d=3 |
C=5137 D=431 |
Sa se stabileasca intensitatea legaturii dintre cele doua variabile cu ajutorul coef. de concordanta Fechner.
- Coeficientul simplu de concordanta :
legatura directa slaba
- Coeficientul de concordanta ponderat:
legatura directa stransa
- Coeficientul pearsonian:
legatura directa slaba.
Coeficientii de corelatie a rangurilor
Rangul este o anumita treapta de ordine a variantelor variabilei intr-o serie. Pentru stabilirea rangurilor, valorile empirice ale variabilelor corelate sunt grupate dupa marimea lor in ordine crescatoare sau descrescatoare. De obicei, in functie de variabila independenta se ordoneaza si variabila dependenta.
Coeficientii de corelatie a rangurilor sunt:
a. coeficientul Spearman;
b. coeficientul Kendall
a. Coeficientul Spearman este o extensie a coeficientului de corelatie Pearson, in care valorile empirice ale variabilelor corelate sunt inlocuite cu rangurile lor corespunzatoare. Coef. Spearman deriva din coeficientul de corelatie clasic si se calculeaza dupa relatia:
, unde:
d = diferentele dintre rangurile celor doua variabile;
n = nr. perechilor de valori xi, yi.
Pentru aplicarea acestui coeficient se procedeaza astfel:
-se atribuie ranguri variabilelor xi si yi, de la numarul 1 a celei mai mari valori, in continuare;
-se calculeaza diferentele- d- dintre rangurile variabilei xi si yi;
-se calculeaza sirul d2 si se insumeaza;
-se aplica formula.
Coef. de corelatie Spearman are valori cuprinse intre -1 si +1.
b. Coeficientul Kendall se defineste prin relatia:
, unde:
.
pi = nr. rangurilor superioare ale variabilei yi ordonate dupa xi, care exista dupa fiecare rang;
qi = nr. rangurilor inferioare ale variabilei yi ordonate dupa xi, care exista dupa fiecare rang;
n = nr. unitatilor observate.
Acest coef. poate lua valori cuprinse intre -1 si +1, cu aceleasi semnificatii.
Ex. Legatura dintre productia si consumul de energie primara (in kg echivalent carbune), pe tari, se prezinta astfel:
Tara |
Prod xi |
Cons yi |
Rang |
d |
d2 |
Ordonare rang |
pi |
qi |
||
x |
y |
x |
y |
|||||||
Africa de Sud Algeria Arabia Saudita Bahrein Brazilia Bulgaria China Germania Norvegia Romania | ||||||||||
Total |
Sa se stabileasca intensitatea legaturii dintre cele doua variabile cu ajutorul coef. de corelatie a rangurilor.
-coef. Spearman: legatura directa stransa
-coef. Kendall: legatura directa
.
Coeficientul de asociere
Se noteaza cu Q si a fost propus de Yule. Se foloseste pentru stabilirea corelatiei intre caracteristici alternative, reprezentand o masura a gradului de asociere.
Determinarea coef. de asociere se bazeaza pe tabelul de asociere de forma:
x y |
y1 (da) |
y2 (nu) |
nx |
x1 (da) |
a |
b |
a+b |
x2 (nu) |
c |
d |
c+d |
ny |
a+c |
b+d |
Coef. de asociere este definit de formula:
Valoarea coef. de asociere are ca interval de variatie (-1;+1) si se interpreteaza ca oricare coef. de corelatie.
Ex. Sa se stabileasca legatura dintre distributia populatiei unui judet pe medii si pe sexe, cu ajutorul coef. de asociere:
Mediul Sexul |
Masculin |
Feminin |
Total |
Urban | |||
Rural | |||
Total |
Intre distributia pe sexe si distributia pe medii exista o legatura directa slaba.
Politica de confidentialitate | Termeni si conditii de utilizare |
Vizualizari: 5633
Importanta:
Termeni si conditii de utilizare | Contact
© SCRIGROUP 2024 . All rights reserved