Scrigroup - Documente si articole

     

HomeDocumenteUploadResurseAlte limbi doc
AstronomieBiofizicaBiologieBotanicaCartiChimieCopii
Educatie civicaFabule ghicitoriFizicaGramaticaJocLiteratura romanaLogica
MatematicaPoeziiPsihologie psihiatrieSociologie


Corelatii si Regresii

Matematica



+ Font mai mare | - Font mai mic



Corelatii si Regresii

Obiective:

Calcularea coeficientului de corelatie Pearson



Calcularea covariantei

Reprezentarea grafica a corelatiei dintre doua variabile cantitative

Efectuarea regresiei liniare

Cunostiinte necesare:

notiunea de dreaptǎ de regresie, coeficient de corelatie, coeficient de determinare (vezi "Curs de Informatica si Statistica aplicate in Medicina, cap. 16)

Problema: Se realizeaza un studiu pe un lot format din 19 nou nascuti, se urmaresc parametrii biomedicali: Tensiunea arteriala diastolica (TAD) (mmHg), Tensiunea arteriala sistolica (TAS) (mmHg), Varsta (zile), Talia (cm), Greutate (grame), Scor Apgar, Varsta gestationala (saptamani), Sex, Malformatii (da,nu). Datele sunt prezentate in tabelul de mai jos:

TAS

TAD

Varsta

Talia

Greutate

Scor Apgar

Varsta gestationala

Sex

Malformatii

M

Da

M

Nu

F

Nu

M

Da

M

Nu

F

Nu

M

Nu

F

Da

F

Da

F

Nu

F

Nu

M

Nu

M

Nu

F

Nu

M

Da

F

Da

F

Da

M

Da

F

Nu

Realizati:

Corelatii

i)       Calculati coeficientul de corelatie Pearson r pentru a stabili daca intre Varsta Gestationala si Greutatea nou nascutului existǎ corelatie semnificativa (utilizati atat functia CORREL, cat si optiunea Correlation din modulul Data Analysis).

ii)      Reprezentati grafic dependenta (corelatia) dintre Varsta Gestationala si Greutatea nou nascutului si dreapta de regresie asociata, calculati coeficientul de determinare d si ecuatia dreptei de regresie.

iii)    Efectuati matricea de corelatie pentru variabilele urmatoare: TAS, TAD, VARSTA, TALIE si GREUTATE.

iv)    Determinati dreapta de regresie liniara pentru variabila dependenta Greutatea la nastere si variabila independenta Varsta gestationala cu Regression din Data Analysis.

Instructiuni:

Corelatii

i)        Calculati coeficientul de corelatie Pearson r pentru a stabili daca intre Varsta Gestationala si Greutatea nou nascutului existǎ corelatie semnificativa (utilizati atat functia CORREL, cat si optiunea Correlation din modulul Data Analysis)

a.      Calculul coeficientului de corelatie utilizand functia CORREL

Selectati Greutatea si cu Copy - Paste copiati celulele selectate in Sheet 2 in coloana B. Selectati Varsta gestationala si cu Copy - Paste copiati celulele selectate in Sheet 2 in coloana A. La unele dintre subpunctele problemei avem nevoie de zona contigua.

Introduceti urmatorul tabel:

Pentru calcularea coeficientului de corelatie Pearson alegeti optiunea Function din meniul Insert.

Alegeti din Or select a category categoria Statistical.

  1. Cautati functia Correl in lista cu functii. Selectati functia Correl. Clic pe butonul OK.
  1. In rubrica Array1 introduceti referintele domeniului unde se gaseste variabila Varsta gestationala de exemplu G2:G20. In rubrica Array2 introduceti referintele domeniului unde se gaseste variabila Greutate de exemplu E2:E20. Clic pe OK.

Interpretare Coeficientul de corelatie a lui Pearson obtinut este 0 , valoare care arata ca intre Varsta gestationala si Greutate exista o buna asociere si asocierea este pozitiva, adica valori crescute ale Varstei gestationale indica valori crescute ale Greutatii la nastere.

b.      Calculul coeficientului de corelatie utilizand modulul Data Analysis

Alegeti comanda Data Analysis din meniul Tools. (Daca comanda Data Analysis nu este prezenta, atunci din meniul Tools se alege comanda Add-Ins. Se va bifa prima optiune Analysis ToolPak. Apasati butonul Ok. Selectati comanda Data Analysis din meniul Tools.)

Din fereastra care apare alegeti Correlation. Apoi Ok.

La Input Range selectati domeniul unde se gasesc valorile variabilelor Varsta gestationala si Greutate de exemplu A1:B20.

Grouped by: se va selecta Columns daca fiecare variabila este introdusa intr-o coloana sau Rows daca fiecare variabila este introdusa  intr-o linie. In cazul nostru vom bifa Columns.

Labels in first row. Antetul de coloana sau linie poate sa fie selectat sau poate lipsi. Daca selectam si antetul de coloana, atunci in pagina de rezultate va aparea acel antet, adica numele variabilei. In acest caz trebuie sa bifam Labels in first row. Daca nu bifam functia va intoarce eroarea: "Input range contents non numeric data", deoarece se considera si antetul de coloana ca fiind una dintre valorile variabilei. In cazul in care nu selectam antetul de coloana, ar trebui sa nu bifam nici Labels in first row. Daca bifam Labels in first row atunci prima valoare a variabilei va fi luata drept antet de coloana si rezultatele vor fi gresite. In cazul nostru selectam Labels in first row.

Optiunile Output se refera la locul amplasarii coeficientului de corelatie. Selectati optiunea Output Range,  iar in rubrica de langa introduceti E2.  Coeficientul de corelatie va fi afisat incepand cu celula E2 pe aceeasi pagina.

Rezultatul va fi o matrice de corelatii de 2x2:

ii)      Reprezentati grafic dependenta (corelatia) dintre Varsta Gestationala si Greutatea nou nascutului dreapta de regresie asociata, calculati coeficientul de determinare d si ecuatia dreptei de regresie.

Instructiuni

a.      Reprezentati grafic dependenta (corelatia) dintre Varsta Gestationala si Greutatea nou nascutului

!!! Graficul adecvat pentru reprezentarea corelatiei dintre doua variabile cantitative continue este graficul nor de puncte (Scatter).

  1. Selectati domeniul cu valorile celor doua variabile.

!!! Prima variabila selectata este cea independenta. A doua variabila selectata este cea dependenta.

  1. Alegeti optiunea Chart din meniul Insert.
  2. Pas 1 Chart Wizard - Step 1 of 4 - Chart Type. Selectati graficul XY (Scater) din lista Chart Type si primul subtip de grafic din lista Chart Sub-type.

!!! Cand realizati acest tip de graphic veti selecta primul subtip, cel care contine numai puncte (un punct pentru fiecare pereche (Varsta gestationala, Greutate)

  1. Click pe butonul Next.

  1. Pas 2 Step 2 of 4 - Source Data. Daca ati selectat datele inainte de a reliza graficul, atunci nu trebuie sa faceti nimic in aceasta etapa.

  1. Pas 3 Step 3 of 4 - Chart Options. Selectati tab-ul Title. Introduceti titlul si titlurile pe axe ca in fereastra de mai jos:

  1. Pentru a sterge legenda alegeti tab-ul Legend si dezactivati Show legend. Click Next.
  2. Pas 4 Step 4 of 4 - Chart Location. Click pe butonul Finish pentru terminarea graficului.

b.      Reprezentati grafic dreapta de regresie asociata calculati coeficientul de determinare d si ecuatia dreptei de regresie

Pentru ca graficul sa continǎ si dreapta de regresie clic dreapta pe una dintre bare. Va aparea urmatorul meniu contextual. Alegeti optiunea Add Trendline.

Se selecteaza tab-ul Options.

Se selecteazǎ Display equation on chart si Display R-squared value on chart

Se apasa clic pe butonul OK.

Dupa toate aceste modificari graficul va arata ca in figura de mai jos:

Interpretare

Diagrama de dispersie are o tendinta crescatoare.Dependenta dintre Greutate si varsta gestationala este pozitiva: o crestere a Varstei Gestationale implica o crestere a Greutatii. Valoarea coeficientului de determinare d=r2=0 ne indica intensitatea relatiei dintre Varsta Gestationala si Greutate. 41% din variatia Greutatii nou nascutului se datoreaza relatiei liniare. Variatia reziduala a Greutatii este 59%.

iii)    Efectuati matricea de corelatie pentru variabilele urmatoare: TAS, TAD, VARSTA, TALIE si GREUTATE

Reveniti in Sheet1

Alegeti comanda Data Analysis din meniul Tools. (Daca comanda Data Analysis nu este prezenta, atunci din meniul Tools se alege comanda Add-Ins. Se va bifa prima optiune Analysis ToolPak. Apasati butonul Ok. Selectati comanda Data Analysis din meniul Tools.)

Alegeti Correlation. Apoi Ok.

La Input Range selectati domeniul unde se gasesc valorile variabilelor TAS, TAD, Varsta, Talie si Greutate de exemplu A1:E20.

Selectati Labels in first row

Selectati optiunea New Worksheet Ply,  iar in rubrica de langa introduceti Corelatie. Matricea de corelatie va fi afisata in pagina cu titlul Corelatie.

Rezultatul va fi o matrice de corelatii de 5x5:

Interpretare Intre TAS si TAD avem un coeficient de corelatie 0 care indica o asociere pozitiva si acceptabila. In rest deoarece ceilalti coeficienti de corelatie sunt in intervalul [-0 ] ei indica o corelatie slaba sau inexistenta intre celelalte variabile.

iv)    Determinati dreapta de regresie liniara pentru variabila dependenta Greutatea la nastere si variabila independenta Varsta gestationala cu Regression din Data Analysis.

Determinarea coeficientiilor dreptei de regresie, precum si a intervalului de incredere pentru fiecare dintre acestia, poate fi realizata utilizand optiunea Regression din modulul Data Analysis:

  1. Reveniti pe pagina Sheet2
  2. Alegeti Regression din optiunile din fereastra Data Analysis

  1. Selectati domeniul valorilor variabilei Greutate de exemplu B1:B20 ca variabila dependenta (Input Y Range), selectati variabila Varsta Gestationala de exemplu A1:A20ca variabila independenta (Input X Range), bifati Labels, pentru obtinerea intervalelor de incredere bifati optiunea Confidence Level (cu nivelul de semnificatie de 95%),

Rezultatele:

Interpretare

Multiple R este coeficientul de corelatie multiplu, dar in cazul nostru cu o singura variabila independenta Multiple R este coeficientul de corelatie Pearson.

R Square = 0 este coeficientul de determinare multiplu R2 reprezinta proportia variatiei lui Y explicata de relatia liniara cu X. In cazul nostru R2 = r2 = 0 , deci 41% din variatia Greutatii se poate explica prin relatia liniara cu Varsta gestationala.

Adjusted R Square

Standard error este eroarea standard estimata si este interpretata ca media erorii in predictia lui Y cu ecuatia de regresie. In cazul nostru eroarea standard este in medie 502 si reprezinta media erorii predictiei Greutatii la nastere cu ecuatia de regresie.

Observations Numarul total de subiecti intrati in studiu, in cazul nostru 19.

Anova - analiza de regresie include si un test cu ipoteza nula: panta dreptei este egala cu 0 (adica nu exista corelatie intre variabila dependenta si cea independenta luate in studiu). Daca panta este semnificativ diferita de 0 (acest lucru se intampla daca la Significance F avem o valoare p<0 ) tragem concuzia ca exista o relatie liniara intre X si Y. In cazul nostru p=0,003 este mai mic decat 0 , deci panta dreptei de regresie este semnificativ diferita de 0, deci exista corelatie semnificativa intre Greutate si Varsta Gestationala.

Regression - variatia lui Y care se explica in functie de X

Residual - variatia lui Y care nu se explica in functie de X (valoarea reziduala este de preferat sa fie cat mai mica)

Total - este variatia totala, adica suma variatiei regresiei cu variatia reziduala

df - gradele de libertate.

SS - suma de patrate este 2998776 pentru regresie, iar pentru reziduale este 4290697,67.

MS - media sumei de patrate MS=SS/df

F este parametrul testului F=MS(regression)/MS(residual).

Significance F = 0,003 in acest caz se respinge ipoteza nulǎ (p-value<0 ), adica corelatia dintre cele doua variabile este semnificativa.

Coefficients - pentru Intercept (constanta) valoarea este -1746 , iar pentru coeficientul a valoarea este 162,79. Deci dreapta de regresie Y=aX+b in cazul nostru este Y=162,79X-1746,51

Intercept

T stat este un test statistic cu ipoteza nula: constanta (intercept) nu este diferita semnificativ de zero. P-value este rezultatul testului. Daca p-value<0 , atunci se refuza ipoteza nula si se accepta ipoteza alternativa: constanta este semnificativ diferita de zero. Lower 95% si Upper 95% formeaza un interval de confidenta de 95% in jurul constantei. Iar Lower 90% si Upper 90% formeaza un interval de confidenta de 90% in jurul constantei. In cazul nostru p=0 deci constanta nu este semnificativ diferita de zero.

Varsta gestationala (X) Panta dreptei de regresie (coeficientul a) este 162 . T stat este un test statistic cu ipoteza nula: panta nu este diferita semnificativ de zero. P-value este rezultatul testului. Daca p-value<0 atunci se refuza ipoteza nula si se accepta ipoteza alternativa: panta este semnificativ diferita de zero. Lower 95% si Upper 95% formeaza un interval de confidenta de 95% in jurul pantei. Iar Lower 90% si Upper 90% formeaza un interval de confidenta de 90% in jurul pantei.

Recapitulare Biostatistica 2 si 3

La alegerea metodei de reprezentare grafica se poate tine cont de urmǎtoarele indicatii:

graficele Pie au avantajul comparǎrii partilor unui intreg; se utilizeazǎ atunci cand se doreste reprezentarea procentelor fiecǎrei categorii. Se vor folosi numai pentru reprezentarea valorilor unei variabile nominale.

graficele cu bare compara cantitǎti separate, dar in numǎr limitat; se vor folosi numai pentru reprezentarea valorilor unei variabile nominale.

diagramele scatter ilustreazǎ tendintele si asocierile intre doua variabile cantitative;

Histograma ofera o imagine globala a frecventelor observate, aceasta putand fi comparatǎ cu o distributie "teoreticǎ", cea normalǎ de exemplu. Se va folosi numai pentru reprezentarea valorilor unei variabile cantitative.

Coeficientul de corelatie este un indicator numeric ce da o masura a relatiei dintre doua variabile cantitative continue sau discrete.

Problema 2

Pentru a se studia hipercolesterolemia au fost luate in studiu doua esantioane: 187 de pacienti si 255 de indemni de boala. Pentru acesti subiecti au fost inregistrati urmatorii parametrii biologici: Varsta, Greutate, Inaltime, Colesterol, Trigliceride, HDL colesterol, Glicemie. Datele se gasesc in fisierul Biost2.xls.

Realizati:

i)            Sortati crescator datele cu cheia de sortare LOT (meniul Data - Sort).

ii)          Calculati IMC (indice de masa corporala) cu formula: IMC=Greutate/Inaltime2

iii)        Calculati indicatorii de centralitate (media aritmetica, mediana), indicatorii de localizare (quartilele), indicatorii de dispersie (amplitudinea, variatia, abaterea standard, coeficientul de variatie, boltirea si asimetria) pentru Varsta, BMI, Colesterol, TG, Glicemie si HDL separat la lotul 1 si la lotul 2.

iv)        Pentru lotul de bolnavi (LOT=1) calculati matricea de corelatie.

v)          Pentru lotul de indemni de boala (LOT=2) calculati coeficientul de corelatie Pearson r pentru TG si BMI, Glicemie si BMI, TG si HDL, BMI si Colesterol (utilizati functia CORREL). Interpretati statistic rezultatele.

vi)        Reprezentati grafic corelatiile, realizati dreapta de regresie asociata, calculati coeficientul de determinare d si ecuatia dreptei de regresie pentru parametrii intre care exista corelatie buna si foarte buna (r obtinut la iii) si iv) peste >0,5 sau sub <-0,5).

vii)      Determinati dreapta de regresie liniara pentru variabila dependenta TG si variabila independenta BMI cu Regression din Data Analysis numai pentru pacientii din LOT=1.



Politica de confidentialitate | Termeni si conditii de utilizare



DISTRIBUIE DOCUMENTUL

Comentarii


Vizualizari: 2669
Importanta: rank

Comenteaza documentul:

Te rugam sa te autentifici sau sa iti faci cont pentru a putea comenta

Creaza cont nou

Termeni si conditii de utilizare | Contact
© SCRIGROUP 2024 . All rights reserved