CATEGORII DOCUMENTE |
Astronomie | Biofizica | Biologie | Botanica | Carti | Chimie | Copii |
Educatie civica | Fabule ghicitori | Fizica | Gramatica | Joc | Literatura romana | Logica |
Matematica | Poezii | Psihologie psihiatrie | Sociologie |
Obiective:
Calcularea coeficientului de corelatie Pearson
Calcularea covariantei
Reprezentarea grafica a corelatiei dintre doua variabile cantitative
Efectuarea regresiei liniare
Cunostiinte necesare:
notiunea de dreaptǎ de regresie, coeficient de corelatie, coeficient de determinare (vezi "Curs de Informatica si Statistica aplicate in Medicina, cap. 16)
Problema: Se realizeaza un studiu pe un lot format din 19 nou nascuti, se urmaresc parametrii biomedicali: Tensiunea arteriala diastolica (TAD) (mmHg), Tensiunea arteriala sistolica (TAS) (mmHg), Varsta (zile), Talia (cm), Greutate (grame), Scor Apgar, Varsta gestationala (saptamani), Sex, Malformatii (da,nu). Datele sunt prezentate in tabelul de mai jos:
TAS |
TAD |
Varsta |
Talia |
Greutate |
Scor Apgar |
Varsta gestationala |
Sex |
Malformatii |
M |
Da |
|||||||
M |
Nu |
|||||||
F |
Nu |
|||||||
M |
Da |
|||||||
M |
Nu |
|||||||
F |
Nu |
|||||||
M |
Nu |
|||||||
F |
Da |
|||||||
|
F |
Da |
||||||
F |
Nu |
|||||||
F |
Nu |
|||||||
M |
Nu |
|||||||
M |
Nu |
|||||||
F |
Nu |
|||||||
M |
Da |
|||||||
F |
Da |
|||||||
F |
Da |
|||||||
M |
Da |
|||||||
F |
Nu |
Realizati:
Corelatii
i) Calculati coeficientul de corelatie Pearson r pentru a stabili daca intre Varsta Gestationala si Greutatea nou nascutului existǎ corelatie semnificativa (utilizati atat functia CORREL, cat si optiunea Correlation din modulul Data Analysis).
ii) Reprezentati grafic dependenta (corelatia) dintre Varsta Gestationala si Greutatea nou nascutului si dreapta de regresie asociata, calculati coeficientul de determinare d si ecuatia dreptei de regresie.
iii) Efectuati matricea de corelatie pentru variabilele urmatoare: TAS, TAD, VARSTA, TALIE si GREUTATE.
iv) Determinati dreapta de regresie liniara pentru variabila dependenta Greutatea la nastere si variabila independenta Varsta gestationala cu Regression din Data Analysis.
Instructiuni:
Corelatii
i) Calculati coeficientul de corelatie Pearson r pentru a stabili daca intre Varsta Gestationala si Greutatea nou nascutului existǎ corelatie semnificativa (utilizati atat functia CORREL, cat si optiunea Correlation din modulul Data Analysis)
a. Calculul coeficientului de corelatie utilizand functia CORREL
Selectati Greutatea si cu Copy - Paste copiati celulele selectate in Sheet 2 in coloana B. Selectati Varsta gestationala si cu Copy - Paste copiati celulele selectate in Sheet 2 in coloana A. La unele dintre subpunctele problemei avem nevoie de zona contigua.
Introduceti urmatorul tabel:
Pentru calcularea coeficientului de corelatie Pearson alegeti optiunea Function din meniul Insert.
Alegeti din Or select a category categoria Statistical.
Interpretare Coeficientul de corelatie a lui Pearson obtinut este 0 , valoare care arata ca intre Varsta gestationala si Greutate exista o buna asociere si asocierea este pozitiva, adica valori crescute ale Varstei gestationale indica valori crescute ale Greutatii la nastere.
b. Calculul coeficientului de corelatie utilizand modulul Data Analysis
Alegeti comanda Data Analysis din meniul Tools. (Daca comanda Data Analysis nu este prezenta, atunci din meniul Tools se alege comanda Add-Ins. Se va bifa prima optiune Analysis ToolPak. Apasati butonul Ok. Selectati comanda Data Analysis din meniul Tools.)
Din fereastra care apare alegeti Correlation. Apoi Ok.
La
Grouped by: se va selecta Columns daca fiecare variabila este introdusa intr-o coloana sau Rows daca fiecare variabila este introdusa intr-o linie. In cazul nostru vom bifa Columns.
Labels in first row. Antetul de coloana sau linie poate sa fie selectat sau poate lipsi. Daca selectam si antetul de coloana, atunci in pagina de rezultate va aparea acel antet, adica numele variabilei. In acest caz trebuie sa bifam Labels in first row. Daca nu bifam functia va intoarce eroarea: "Input range contents non numeric data", deoarece se considera si antetul de coloana ca fiind una dintre valorile variabilei. In cazul in care nu selectam antetul de coloana, ar trebui sa nu bifam nici Labels in first row. Daca bifam Labels in first row atunci prima valoare a variabilei va fi luata drept antet de coloana si rezultatele vor fi gresite. In cazul nostru selectam Labels in first row.
Optiunile Output se
refera la locul amplasarii coeficientului de corelatie. Selectati
optiunea
Rezultatul va fi o matrice de corelatii de 2x2:
ii) Reprezentati grafic dependenta (corelatia) dintre Varsta Gestationala si Greutatea nou nascutului dreapta de regresie asociata, calculati coeficientul de determinare d si ecuatia dreptei de regresie.
Instructiuni
a. Reprezentati grafic dependenta (corelatia) dintre Varsta Gestationala si Greutatea nou nascutului
!!! Graficul adecvat pentru reprezentarea corelatiei dintre doua variabile cantitative continue este graficul nor de puncte (Scatter).
!!! Prima variabila selectata este cea independenta. A doua variabila selectata este cea dependenta.
!!! Cand realizati acest tip de graphic veti selecta primul subtip, cel care contine numai puncte (un punct pentru fiecare pereche (Varsta gestationala, Greutate)
b. Reprezentati grafic dreapta de regresie asociata calculati coeficientul de determinare d si ecuatia dreptei de regresie
Pentru ca graficul sa continǎ si dreapta de regresie clic dreapta pe una dintre bare. Va aparea urmatorul meniu contextual. Alegeti optiunea Add Trendline.
Se selecteaza tab-ul Options.
Se selecteazǎ Display equation on chart si Display R-squared value on chart
Se apasa clic pe butonul OK.
Dupa toate aceste modificari graficul va arata ca in figura de mai jos:
Interpretare
Diagrama
de dispersie are o tendinta
crescatoare.Dependenta dintre
Greutate si varsta gestationala este pozitiva:
o crestere a Varstei Gestationale implica o crestere a Greutatii.
Valoarea coeficientului de determinare d=r2=0 ne
iii) Efectuati matricea de corelatie pentru variabilele urmatoare: TAS, TAD, VARSTA, TALIE si GREUTATE
Reveniti in Sheet1
Alegeti comanda Data Analysis din meniul Tools. (Daca comanda Data Analysis nu este prezenta, atunci din meniul Tools se alege comanda Add-Ins. Se va bifa prima optiune Analysis ToolPak. Apasati butonul Ok. Selectati comanda Data Analysis din meniul Tools.)
Alegeti Correlation. Apoi Ok.
La Input Range selectati domeniul unde se gasesc valorile variabilelor TAS, TAD, Varsta, Talie si Greutate de exemplu A1:E20.
Selectati Labels in first row
Selectati optiunea New Worksheet Ply, iar in rubrica de langa introduceti Corelatie. Matricea de corelatie va fi afisata in pagina cu titlul Corelatie.
Rezultatul va fi o matrice de corelatii de 5x5:
Interpretare Intre TAS si TAD avem un coeficient de corelatie 0 care
iv) Determinati dreapta de regresie liniara pentru variabila dependenta Greutatea la nastere si variabila independenta Varsta gestationala cu Regression din Data Analysis.
Determinarea coeficientiilor dreptei de regresie, precum si a intervalului de incredere pentru fiecare dintre acestia, poate fi realizata utilizand optiunea Regression din modulul Data Analysis:
Rezultatele:
Interpretare
Multiple R este
coeficientul de corelatie
multiplu, dar in cazul nostru
cu o singura variabila
Adjusted
Standard error este eroarea standard estimata si este interpretata ca media erorii in predictia lui Y cu ecuatia de regresie. In cazul nostru eroarea standard este in medie 502 si reprezinta media erorii predictiei Greutatii la nastere cu ecuatia de regresie.
Observations Numarul total de subiecti intrati in studiu, in cazul nostru 19.
Anova - analiza de regresie include si un test cu ipoteza nula: panta dreptei este egala cu 0 (adica nu exista corelatie intre variabila dependenta si cea independenta luate in studiu). Daca panta este semnificativ diferita de 0 (acest lucru se intampla daca la Significance F avem o valoare p<0 ) tragem concuzia ca exista o relatie liniara intre X si Y. In cazul nostru p=0,003 este mai mic decat 0 , deci panta dreptei de regresie este semnificativ diferita de 0, deci exista corelatie semnificativa intre Greutate si Varsta Gestationala.
Regression - variatia lui Y care se explica in functie de X
Residual - variatia lui Y care nu se explica in functie de X (valoarea reziduala este de preferat sa fie cat mai mica)
Total - este variatia totala, adica suma variatiei regresiei cu variatia reziduala
df - gradele de libertate.
SS - suma de patrate este 2998776 pentru regresie, iar pentru reziduale este 4290697,67.
MS - media sumei de patrate MS=SS/df
F este parametrul testului F=MS(regression)/MS(residual).
Significance F = 0,003 in acest caz se respinge ipoteza nulǎ (p-value<0 ), adica corelatia dintre cele doua variabile este semnificativa.
Coefficients
- pentru Intercept (
Intercept
T stat este un test statistic cu ipoteza nula:
Varsta gestationala (X) Panta dreptei de regresie (coeficientul a) este 162 . T stat este un test statistic cu ipoteza nula: panta nu este diferita semnificativ de zero. P-value este rezultatul testului. Daca p-value<0 atunci se refuza ipoteza nula si se accepta ipoteza alternativa: panta este semnificativ diferita de zero. Lower 95% si Upper 95% formeaza un interval de confidenta de 95% in jurul pantei. Iar Lower 90% si Upper 90% formeaza un interval de confidenta de 90% in jurul pantei.
Recapitulare Biostatistica 2 si 3
La alegerea metodei de reprezentare grafica se poate tine cont de urmǎtoarele indicatii:
graficele Pie au avantajul comparǎrii partilor unui intreg; se utilizeazǎ atunci cand se doreste reprezentarea procentelor fiecǎrei categorii. Se vor folosi numai pentru reprezentarea valorilor unei variabile nominale.
graficele cu bare compara cantitǎti separate, dar in numǎr limitat; se vor folosi numai pentru reprezentarea valorilor unei variabile nominale.
diagramele scatter ilustreazǎ tendintele si asocierile intre doua variabile cantitative;
Histograma ofera o imagine globala a frecventelor observate, aceasta putand fi comparatǎ cu o distributie "teoreticǎ", cea normalǎ de exemplu. Se va folosi numai pentru reprezentarea valorilor unei variabile cantitative.
Coeficientul de corelatie este un indicator numeric ce da o masura a relatiei dintre doua variabile cantitative continue sau discrete.
Problema 2
Pentru a se studia hipercolesterolemia au fost luate in studiu doua esantioane: 187 de pacienti si 255 de indemni de boala. Pentru acesti subiecti au fost inregistrati urmatorii parametrii biologici: Varsta, Greutate, Inaltime, Colesterol, Trigliceride, HDL colesterol, Glicemie. Datele se gasesc in fisierul Biost2.xls.
Realizati:
i) Sortati crescator datele cu cheia de sortare LOT (meniul Data - Sort).
ii) Calculati IMC (indice de masa corporala) cu formula: IMC=Greutate/Inaltime2
iii) Calculati indicatorii de centralitate (media aritmetica, mediana), indicatorii de localizare (quartilele), indicatorii de dispersie (amplitudinea, variatia, abaterea standard, coeficientul de variatie, boltirea si asimetria) pentru Varsta, BMI, Colesterol, TG, Glicemie si HDL separat la lotul 1 si la lotul 2.
iv) Pentru lotul de bolnavi (LOT=1) calculati matricea de corelatie.
v) Pentru lotul de indemni de boala (LOT=2) calculati coeficientul de corelatie Pearson r pentru TG si BMI, Glicemie si BMI, TG si HDL, BMI si Colesterol (utilizati functia CORREL). Interpretati statistic rezultatele.
vi) Reprezentati grafic corelatiile, realizati dreapta de regresie asociata, calculati coeficientul de determinare d si ecuatia dreptei de regresie pentru parametrii intre care exista corelatie buna si foarte buna (r obtinut la iii) si iv) peste >0,5 sau sub <-0,5).
vii) Determinati dreapta de regresie liniara pentru variabila dependenta TG si variabila independenta BMI cu Regression din Data Analysis numai pentru pacientii din LOT=1.
Politica de confidentialitate | Termeni si conditii de utilizare |
Vizualizari: 2687
Importanta:
Termeni si conditii de utilizare | Contact
© SCRIGROUP 2024 . All rights reserved