CATEGORII DOCUMENTE |
Astronomie | Biofizica | Biologie | Botanica | Carti | Chimie | Copii |
Educatie civica | Fabule ghicitori | Fizica | Gramatica | Joc | Literatura romana | Logica |
Matematica | Poezii | Psihologie psihiatrie | Sociologie |
Curs: Analiza seriilor statistice interdependente
Notiunea de corelatie Conditii de aplicare
Tipuri de legaturi intre fenomenele social-economice
Metode de analiza a interdependentei dintre fenomene
Exemple
Notiunea de corelatie Conditii de aplicare
in domeniul fenomenelor si proceselor social-economice, iau nastere o serie de legaturi, de interdependente, determinate de actiunea unor cauze si conditii diferite, care influenteaza mai mult sau mai putin fenomenele existente.
Complexitatea fenomenelor economice si sociale, caracterizarea lor cantitativa si calitativa determina folosirea combinata a diferitelor stiinte in investigarea relatiilor de cauzalitate, care stau la baza aparitiei si dezvoltarii lor.
Printre metodele si modelele care s-au impus in studiul interdependentei cele care se folosesc cel mai frecvent sunt corelatia si regresia statistica
Utilizarea acestor metode este justificata de necesitatea crescanda a reflectarii intr-o forma numerica adecvata a interdependentei obiective dintre fenomenele social-economice in ceea ce priveste natura, directia si gradul de intensitate a legaturilor, care se manifesta intr-o anumita perioada de timp sau in dinamica.
Inainte de aplicarea modelelor statistice de analiza interdependenta, este necesar sa facem distinctia intre corelatie si covariatie.
Covariatia presupune existenta unor forme de repartitie in timp, spatiu sau organizare, pentru 2 sau mai multe variabile, dar care sunt independente intre ele.
Corelatia se poate defini ca interdependenta existenta intre diferitele fenomene sau caracteristici exprimate prin numere (cantitativ) sau prin cuvinte (calitativ) manifestata in cadrul fenomenelor social-economice de masa. Corelatia presupune gasirea functiei analitice cu care sa descriem statistic legatura dintre variabilele studiate. Trebuie precizat ca metoda corelatiei nu poate da rezultate bune decat daca se lucreaza cu un numar suficient de mare de cazuri individuale in care distributia abaterilor este aproximativ normala.
2. Tipuri de legaturi intre fenomenele social-economice
Formele de manifestare a relatiilor de interdependenta sunt extrem de variate si adesea destul de greu de sesizat. Pentru a le studia este necesar sa fie clasificate in functie de unele criterii, dupa care se pot deosebi unele de altele.
Dupa natura relatiei de cauzalitate, legaturile dintre fenomene pot fi legaturi functionale si legaturi statistice sau stohastice
1. Legaturile functionale sunt univoce, realizate direct intre un fenomen-cauza si un fenomen-efect. Deci, fenomenul-efect depinde de o singura cauza, care poate fi identificata de cate ori se produce, ceea ce inseamna ca, daca conditiile raman constante, atunci unei valori a caracteristicii factoriale ii corespunde o singura valoare a caracteristicii rezultative. Ele se mai numesc si legaturi de tip determinist.
Relatia matematica dintre fenomenul-efect si fenomenul-cauza, pentru legaturile de tip functional (determinist) este: yi=f(xi).
Ex Un exemplu de astfel de legatura functionala este aceea dintre nivelul productivitatii muncii si consumul specific de timp de munca pentru produsul respectiv in cadrul unei perioade de timp. Se poate, cu usurinta, demonstra ca, pe masura ce scade timpul de producere a unei marfi, cu atat creste productivitatea muncii pentru produsul respectiv.
legaturi statistice, denumite si legaturi stohastice, de tip nedeterminist descrise prin functia matematica : si se refera la fenomene complexe, influentate de mai multe cauze, care se manifesta in conditii diferite si se pot clasifica dupa mai multe criterii astfel:
dupa numarul variabilelor inregistrate:
legaturi simple (unifactoriale) cand se inregistreaza un singur factor;
legaturi multiple (bifactoriale si multifactoriale) - inregistreaza cel putin doua variabile factoriale.
dupa continutul variabilelor corelate:
legaturi numerice denumite corelatii statistice - cand legatura se stabileste intre variabile cantitative
legaturi in care cel putin o variabila este nenumerica, denumite asocieri statistice - cand legatura se stabileste intre variabile calitative
dupa directia legaturii:
legaturi directe - pe masura ce creste variabila factoriala creste si cea rezultativa.
legaturi inverse - pe masura ce creste variabila factoriala descreste cea rezultativa.
Ex. intre w si salariu exista o legatura directa de tipul unei corelatii statistice. Legatura dintre calificare si salariu este o asociere statistica, pentru ca calificarea este o variabila calitativa
dupa functia analitica cu care pot fi exprimate corelatiile statistice:
liniare - a carei linie de tendinta se masoara cu ecuatia functiei rectiliniare,
curbiliniare, cunoscute sub denumirea generica de legaturi neliniare - care pot fi de tipul unei functii exponentiale, a functiilor hiperbolice si a functiilor de tip parabolic.
dupa timpul in care se produc:
concomitente sau sincrone
cu decalaj sau asincrone este acea in care dupa o anumita modificare a factorului incepe sa apara si modificarea efectului. In cadrul analizei in timp, a legaturilor, trebuie verificat daca, exista decalaj pana la inceperea corelatiei si necesitatea stabilirii perioadei de corelare a seriilor dupa eliminarea decalajului.
Ex. Intre inzestrarea tehnica productivitatea poate sa apara legata dupa un numar de ani necesari procesului de asimilare sau dupa o anumita perioada un produs atinge performantele de calitate si poate sa apara la export.
Interpretarea rezultatelor si verificarea ipotezelor si aplicarea testelor de semnificatie a functiilor si parametrilor lor se face potrivit particularitatilor fenomenelor studiate in functie de timp, loc si forma de organizare.
Daca datele provin dintr-un sondaj statistic trebuie sa se verifice reprezentativitatea ansamblului si sa se interpreteze probabilistic indicatorii calculati.
Metode de analiza a interdependentei dintre fenomene
Pentru interpretarea legaturilor dintre fenomene se pot folosi metode de sistematizare si verificare a legaturilor:
A. Metode parametrice simple si analitice,
B. Metode neparametrice
A. metode parametrice sIMPLE
metodele de sistematizare si verificare a corelatiei sunt:
a) seriile interdependente,
b) metoda tabelului de corelatie
c) metoda gruparii,
d) metoda grafica,
e) metoda balantelor
a) Metoda seriilor interdependente pe baza unor analize complexe imprima cu stiintele care studiaza acelasi domeniu sa inregistram si sa inscriem in datele in functie de prima variabila factoriala.
Pentru aceasta se pot folosi serii cronologice, teritoriale, distributii statistice referitoare la aceeasi perioada de timp. Daca vrem sa analizam intr-o companie care este legata de numarul de ore lucrate si salariu vom nota cu x numarul de ore lucrate si cu y salariul.
Nr crt |
ore lucrate x |
salariu y |
n |
x1 x2 x3 xn |
y1 y2 y3 yn |
Daca exista legatura intre cele doua, si ea este directa, pe masura ce creste variabila factoriala, descreste si rezultativa.
b) Metoda tabelului de corelatie care are la baza tabelul de corelatie, tabel cu dubla intrare reprezentand o forma speciala a unei grupari combinate, in care separarea pe grupe a unitatilor se face dupa variatia ambelor caracteristici - factoriala si rezultativa.
Cu ajutorul tabelului de corelatie in functie de modul de distributie a frecventelor, in tabel se obtin informatii cu privire la existenta si directia legaturii dintre cele doua variabile
In unele cazuri directia legaturii este data de pozitia diagonalei in jurul careia se grupeaza frecventele: cand diagonala leaga unghiul stang de sus al tabelului cu unghiul drept de jos - legatura este directa, iar cand uneste unghiul stang de jos cu unghiul drept de sus, se apreciaza ca intre cele doua caracteristici exista o legatura in sens invers.
Valorile caracteristicii de grupare X |
Variantele sau valorile caracteristicii dependente Y |
Volumul grupei |
|||||
y1 |
y2 |
yj |
ym |
||||
x1 |
n11 |
n12 |
n1j |
n1m |
n1. |
||
x2 |
n21 |
n22 |
n2j |
n2m |
n2. |
||
xi |
ni1 |
ni2 |
nij |
nim |
ni. |
||
xr |
nr1 |
nr2 |
nrj |
nrm |
nr. |
||
Total |
n.1 |
n.2 |
n.j |
nm |
|
Modul de asezare a frecventelor in jurul diagonalei ne da posibilitatea sa apreciem intensitatea legaturii: concentrarea intensa a frecventelor in jurul diagonalelor indica existenta unei legaturi stranse intre caracteristici. In alte cazuri, frecventele se grupeaza pe diverse curbe. Daca frecventele se repartizeaza pe intregul tabel fara nici o regularitate, atunci ori nu exista legatura, ori aceasta este foarte slaba.
c) Metoda gruparii reprezinta un model de analiza prin excelenta calitativ, capabil sa surprinda aspecte esentiale ale legaturilor dinte variabile. Studiul legaturilor se realizeaza dupa ce unitatile colectivitatii se grupeaza in functie de caracteristica factoriala, iar pentru caracteristica rezultativa se calculeaza indicatorii derivati (marimile relative sau medii) specifici fiecarei grupe.
Aceasta metoda de studiere a legaturilor dintre fenomene necesita calcularea mediilor conditionate ale variabilei rezultative pentru grupele obtinute dupa variabila factoriala. Pe baza tabelului de corelatie se pot calcula urmatoarele medii de grupa:
Metoda grafica Graficul de corelatie denumit si corelograma sau graficul norului de puncte, permite sa identifice cu ajutorul ajustarii care este functia analitica corespunzatoare valorilor noastre.
Prin ajustare
intelegim inlocuirea valorilor empirice obtinute pentru o
observatie statistica cu valori teoretice calculate dupa un
model statistic. In cazul in care am intocmit un grafic de corelatie putem
face o ajustare vizuala si dupa aceea aplicam modelul de
calcul si o ajustare numerica. Ajustarea vizuala consta in trasarea unei linii drepte sau a
unei curbe care sa treaca cat mai aproape de valorile empirice
inscrise in grafic.
Interpretand foram
de legatura putem avea corelatii :
Legatura liniara directa Legatura liniara inversa
Lipsa de legatura
Metoda grafica este utilizata cu bune rezultate pentru alegerea functiei analitice care se studiaza (in cazul regresiei si corelatiei)
d) Metoda balantelor. Aceasta metoda serveste pentru analiza relatiilor care exista in cadru unui proces stocastic in care se pot analiza relatiile de interdependenta dintre diferitele elemente ale procesului, dintre diferitele laturi ale lui sau dintre diferitele etape sau momente in care el se desfasoara.
A.2. metode parametrice ANALITICE
Metode si procedee de analiza a legaturilor dintre fenomene (vezi figura 1.)
Analiza dispersionala
Analiza dispersionala este folosita pentru verificarea semnificatiei factorului de grupare ales (inainte de aplicarea regresiei) si dupa aplicarea acesteia, pentru calculul si interpretarea rezultatelor obtinute in urma aplicarii modelului de corelatie (validarea modelului ales pentru cazuri concrete .
Metoda regresiei
Metodele de studiere a legaturilor prezentate anterior au ca deficienta principala faptul ca desi permit constatarea legaturii si caracterulul ei, nu o pot masura printr-un indicator sintetic. Acest inconvenient este inlaturat prin utilizarea metodei regresie.
Metoda regresiei constituie o metoda statistica analitica de cercetare a legaturii dintre variabile cu ajutorul unor functii denumite functii de regresie.
Notand cu Y variabile dependenta si cu x1 , x2 xn variabilele independente obtinem ecuatia de regresie y = f (x1 , x2 xn).
xi - variabila factoriala
Parametrul "a" reprezinta ordonata la origine si arata la ce nivel ar fi ajuns valoarea caracteristicii Y daca toti factorii - mai putin cel inregistrat - ar fi avut o actiune constanta asupra formarii ei.
Parametrul "b" se mai numeste si coeficient de regresie si reprezinta, in sens geometric, panta liniei drepte. Coeficientul de regresie "b" arata cu cat se schimba in medie variabila Y in cazul in care variabila X se modifica cu o unitate. Acest parametru este pozitiv in cazul legaturii directe si negativ in cazul legaturii inverse.
Parametrii "a" si "b" se determina din sistemul de ecuatii normale obtinut prin metoda celor mai mici patrate ().
Daca modelul ales este corelatia liniara simpla corespunde datelor empirice, atunci ecuatia de regresie considera ca valorile teoretice obtinute prin celor mai mici patrate sa prezinte abateri minime. ().
Parametri ecuatiei in acest caz se determina prin rezolvarea urmatorului sistem de ecuatii:
Daca se foloseste metoda determinantilor se obtine:
Celelalte modele de functii sunt prezentate in "Statistica aplicata in economie" pag 66-69[1]
Coeficientul de corelatie
Coeficientul de corelatie liniara simpla poate sa ia valori intre -1 si +1.
Intre -1 si 0, legatura dintre cele doua variabile este de sens invers si este cu atat mai intensa, cu cat se apropie de -1.
Intre 0 si +1, legatura dintre cele doua variabile este directa si este cu atat mai intensa, cu cat se apropie de 1.
Formula de calcul simplificat pentru seria bidimensionala simpla
Pentru verificarea semnificatiei coeficientului de corelatie liniara simpla, se aplica, cel mai frecvent, testul t:
unde, n reprezinta numarul de perechi de valori.
Valoarea calculata se compara cu cea tabelara stabilita probabilistic pentru un nivel de semnificatie si cu n-2 grade de libertate.
Daca , se verifica ipoteza semnificatiei coeficientului de corelatie iar daca , legatura este nesemnificativa si trebuie cautat un alt factor esential cu care sa se studieze corelatia.
Raportul de corelatie
In cazul in care dispunem de un numar mic de perechi de valori (xi, yi), negrupate:
pornind de la devianta factoriala :
sau
pornind de la devianta reziduala :
unde reprezinta valorile ajustate indiferent de modelul de regresie selectat.
Raportul de corelatie poate lua valori de la zero la +1; interpretarea sensului legaturii se face dupa functia de regresie.
Daca se confirma ipoteza legaturii liniare si aceasta relatie este considerata un test de verificare a legaturii.
In cazul unei serii bidimensionale avem abaterile:
abaterea dintre yi si ecuatia de regresie;
abaterea dintre ecuatia de regresie si medie;
abaterea dintre yi si media lor
intre cele 3 abateri exista relatia
Astfel putem determina:
Dispersia totala
Dispersia de grupa
Dispersia dintre grupe
Regula adunarii dispersilor
Pe baza regulii de adunare a dispersiilor se pot calcula:
Coeficientul de determinatie :
Coeficientul de nedeterminatie
Interpretand cele doua dispersii putem avea doua variante:
Daca: > rezulta legatura intre x si y
Daca: < tendinta spre independenta
B. Indicatorii sintetici ai corelatiei neparametrice
Coeficientul de asociere
Aceasta metoda se utilizeaza pentru masurarea intensitatii legaturii a doua caracteristici alternative prezentate intr-un tabel de asociere de forma:
y x |
y1 |
y2 |
Total |
x1 |
a |
b |
a+b |
x2 |
c |
d |
c+d |
Total |
a+c |
b+d |
a+b+c+d |
Produsul ad arata gradul de realizare a legaturii directe dintre X si Y, iar produsul bc gradul de legatura inversa intre aceste doua caracteristici cercetate.
Pentru stabilirea valorii numerice a coeficientului de asociere, care sa indice existenta si intensitatea unei legaturi, formula cea mai utilizata este cea propusa de Yule:
Acest indicator poate sa ia valori intre -1 si +1, aratand nu numai gradul de intensitate al asocierii celor doua caracteristici, dar si sensul ei.
Coeficienul de corelatie a rangurilor propus de Spearman pentru serii paralele fara frecvente:
in care:
di - reprezinta diferenta intre rangurile perechii de valori (xi,yi); di=rxi - ryi
n - numarul de perechi de valori.
Coeficientul de corelatie a rangurilor propus de Kendall pentru serii paralele fara frecvente:
in care
unde:
Pi - numarul rangurilor mai mari care urmeaza rangului curent pentru variabila dependenta - y
Qi - numarul rangurilor mai mici care urmeaza rangului curent pentru variabila dependenta - y
3. Exemple
Ex. Corelatia liniara simpla (date negrupate)
Se prezinta urmatoarele date cu privire la numarul de otre lucrate si salariu net lunar
Nr. crt |
Ore lucrate (xi) |
Salariul net lunar (mii lei) (yi) |
Dintre metodele simple de cercetare a legaturilor statistice recurgem la :
A) Metoda seriilor paralele interdependente
Concluzie: Valorile xi fiind ordonate crescator se poate observa ca si valorile yi cresc in cea mai mare parte, ceea ce sugereaza o legatura directa.
B) Metoda grafica este o alta cale de a stabili legatura dintre fenomene.
Graficul de asemenea confirma o legatura directa de forma liniara.
Datele necesare calcularii celor doi parametri sunt prezentate in tabelul de mai jos.
Nr ctr. |
xi |
yi |
|
xiyi |
Yxi=-425,62+19,87xi |
Total |
Functia de regresie este: Yxi=-425,62+19,87xi
Valorile functie de regresie se obtin inlocuind xI cu valorile empirice.
Parametrul b=0,104 se interpreteaza astfel: cresterea valorilor desfacerii cu 1000 lei a determinat o crestere a salariului net, in medie cu 104 lei.
a) Raportul de corelatie liniara simpla se ca calcula cu formula:
Nr. crt |
xi |
yi |
Yxi |
(yi - Yxi)2 |
(yi - )2 |
|
| ||||||
|
Unde:
Se poate spune ca legatura este stransa (r/x=0,9838) si gradul de determinatie este de 0,968 sau de 96,8%.
b) Metoda coeficientului de corelatie
Intensitatea legaturii se masoara prin coeficientul de corelatie (ry/x).
Rezulta ca legatura dintre aceste doua variabile este directa (rz/x>0) si puternica. Exista legatura liniara intensa deoarece ry/x=Ry/x.
c) Calculul coeficientului de corelatie a rangurilor
Coeficienul de corelatie a rangurilor propus de Spearman
in care: di - reprezinta diferenta intre rangurile perechii de valori (xi,yi);
n - numarul de perechi de valori.
Coeficientul de corelatie a rangurilor propus de Kendall :
in care
in care: Pi - numarul rangurilor mai mari care urmeaza rangului curent pentru variabila dependenta;
Qi - numarul rangurilor mai mici care urmeaza rangului curent pentru variabila dependenta.
Calculul coeficientilor de corelatie a rangurilor
Nr crt |
xi Oferta (camere) |
yi Cererea (camere) |
Ranguri |
di=rxi-ryi |
di2 |
Pi |
Qi |
Pi-Qi |
|
rxi |
ryi |
||||||||
total |
Analiza corelatiilor in cazul distributiilor bidimensionale cu frecvente
Se cunosc urmatoarele date cu privire la numarul de zile lucrate si a salariilor nete lunare la o societate comerciala in iunie 2002
Grupe dupa numarul de zile lucrare |
Repartitiile dupa veniturile salariale (zece mii lei) |
Total |
||||
Sub 200 |
320 si peste | |||||
Sub 19 | ||||||
25 peste | ||||||
Total |
Se cere:
Sa se argumenteze existenta directia si forma legaturii folosind metodele simple adecvate;
Sa se calculeze valorile functiei de regresie;
Sa se masoare intensitatea legaturii dintre doua variabile folosind un indicator de corelatie potrivit tendintei obiective de realizare a legaturii
Rezolvare
Aplicarea metodelor simple la analiza legaturii dintre cele doua variante
Metoda tabelului de corelatie
Cu ajutorul tabelului de corelatie in functie de modul de distributie a frecventelor, in tabel se obtin informatii cu privire la existenta si directia legaturii dintre cele doua variabile
Pe baza datelor din tabel se poate accepta ipoteza unei legaturi directe intre cele doua variabile deoarece frecventele nijtind sa se distribuie in majoritate pe diagonala tabelului
Metoda gruparii
Aceasta metoda de studiere a legaturilor dintre fenomene necesita calcularea mediilor conditionate ale variabilei rezultative pentru grupele obtinute dupa variabila factoriala Pe baza tabelului de corelatie se pot calcula urmatoarele medii.
Mediile de grupa
Ce poate observa ca pe masura ce creste volumul incasarilor cresc si valorile mediilor conditionate prin urmare intre doua variabile exista o legatura si ea este directa.
Metoda grafica
Figura. Repartitia vanzatorilor dupa numarul de zile lucrate si salariul net.
Din grafic rezulta ca intre cele doua variabile exista o legatura, aceasta legatura este directa de tip liniar.
Calculul valorilor functiei de regresie
Calculul valorilor functiei de regresie In cazul distributiei bidimensionale este identic cu cel prezentat pentru metoda seriilor paralele interdependente, cu precizarea ca in sistemul de ecuatii normale fiecarei variabile si se ataseaza frecventa corespunzatoare
Din cele afirmate mai sus legatura este una directa de tip liniara, astfel ecuatia de regresie este:
Numarul de grupe este acelasi pentru ambele variabile si sistemul de ecuatii normale va fi:
Daca se foloseste metoda determinantilor se obtine:
Gr nr de zile lucr |
Repartitiile dupa veniturile salariale (zece mii lei) |
Total |
xi |
xinI |
|
|
||||
Sub 200 |
320 si peste |
|||||||||
Total | ||||||||||
yi | ||||||||||
yini | ||||||||||
| ||||||||||
|
Datele calcularii celor doi parametri sunt prezentate in Tabelul
Functia de regresie este:
iar ecuatiile de regresie cu care se face ajustarea sunt:
|
Yx1= 232,560 |
Yx2= 256,231 |
Yx3= 279,903 |
Yx4= 303,575 |
Yx5= 327,246 |
Parametrul b=11,8357 arata ca la o crestere cu o zi, salariul net creste cu 118357 lei.
b>0, confirma ipoteza privind legatura directa.
a) Metode de masurare a intensitatii legaturii
Metoda raportului de corelatie simpla:
Media pe total
Rezulta ca legatura este puternica
Datele calcularii acestui indicator sunt prezentate in tabel
|
xi |
yi |
Yxi |
nxiyi |
|
|
||||||
| ||||||||||||
| ||||||||||||
| ||||||||||||
| ||||||||||||
| ||||||||||||
Total |
Metoda coeficientului de corelatie
= Rezulta si in acest caz, ca legatura dintre aceste doua variabile este directa (rz/x>0) si puternica. De asemenea este o legatura liniara intensa deoarece ry/x=Ry/x.
DISTRIBUIE DOCUMENTUL
Comenteaza documentul:Te rugam sa te autentifici sau sa iti faci cont pentru a putea comentaCreaza cont nou Termeni si conditii de utilizare | Contact
|