Scrigroup - Documente si articole

     

HomeDocumenteUploadResurseAlte limbi doc
AstronomieBiofizicaBiologieBotanicaCartiChimieCopii
Educatie civicaFabule ghicitoriFizicaGramaticaJocLiteratura romanaLogica
MatematicaPoeziiPsihologie psihiatrieSociologie


Faza analitica a metodei deductibile de cercetare

Matematica



+ Font mai mare | - Font mai mic



Statistica     - descriptiva (sinteza in urma acumularii unor date)

- deductiva ( model teoretic care poate fi exprimat printr-un model statistic)

Modelul teoretic (empiric) - consta intr-o serie de afirmatii sau formule prin care se da o



explicatie pentru observatia efectuata anterior

Ipoteze logice predictii care se emit pe baza modelelor teoretice

Faza analitica a metodei deductibile de cercetare:

- se folosesc diferite teste pentru evaluarea teoriilor prin falsificarea ipotezelor deoarece o teorie sau un model nu poate fi demonstrat logic ci doar prin respingerea tuturor alternativelor

Ipoteza nula - sustine o idee opusa teoriei logice, pe care dorim s-o validam

Se testeaza ipoteza nula:

daca se respinge → ipoteza logica este acceptata (nu exclude ajustari, completari ulterioare)

daca nu poate fi respinsa → modelul propus nu poate fi validat (date insuficiente, incorecte)

Ipoteza statistica ≠ ipoteza logica

Emisa doar in contextul populatiei statistice analizate; e folosita pentru testarea unei predictii derivate din ipoteza logica.

Importanta analizelor statistice deriva din faptul ca:

detectarea si descrierea modelelor in lumea vie trebuie facuta in mod riguros (streng, grndlich)

asigurarea unei acoperiri probabilistice pentru toti parametrii modelelor testate, ceea ce permite

generalizarea rezultatelor

diminuarea subiectivismului uman in interpretarea observatiilor si designul experimentelor

(cercetatorii au tendinta de a ignora dovezile ce contravin teoriilor proprii, au preconcepte)

Date - o colectie de observatii care pot fi unitati de esantionaj (suprafete de proba) sau unitati

experimentale (organisme)

Variabile - observatii individuale (lungime, nr. de indivizi)

- valoarea lor poate fi cunoscuta in urma unui esantion

- sunt aleatorii (nu se stie cum variaza)

Tipuri de variabile:

- calitative (nominale) - exprimat prin coduri

- reprezinta stari sau categorii ex: culoarea solului

- operatii matematice folosite: =, ≠

- cantitative - ordinale exprimat prin corpuri sau nr. intregi care definesc ranguri

- intervalul e inegal

- operatii: =, ≠, >, <

- de interval - se exprima prin nr. intregi (dar nu numai) care definesc tot ranguri

intervalul e egal ex: scara Celsius

- operatii: =, ≠, >, <, +,

- de ratie - exprimate prin nr. rationale, sunt veritabile variabilelor continue

- toti operatorii matematici ex: biomasa, intensitatea fotosintezei

- discontinue - nominale

- ordinale

- de interval

- continue

Probabilitati:

Incertitudinea: cea mai importanta caracteristica singulara a datelor biologice => mediile calculate in urma unui esantionaj repetat vor fi diferite din cauza diversitatii biologice (genotipica, fenotipica) si varietate temporala.

In analizele statistice incertitudinea este manipulata prin probabilitati (= are valori intre 0 = imposibilitate si 1 = certitudine).

Orice variabila aleatoare prezinta o distributie de probabilitate care se poate reprezenta grafic

intr-un sistem ortogonal de axe.


Pe abscisa fiind valorile pe care le are variabila respectiva.

Pe ordonata probabilitatiile relative. Suma acestora = 1.

Ex : am aruncat cu zarul de 100 de ori

In cazul unei variabile continue se vorbeste de functie de densitate a probabilitatii.

De multe ori suntem interesati de probabilitatea unui

interval de valori. Probabilitatea = aria de sub grafic

Tipuri de distributie pentru variabile

Procedurile statistice se bazeaza pe cunoasterea distributiei de probabilitate a variabilelor.

Distributia normala (gaussiana): Forma de clopot perfect simetrica fata de medie

= f(x, ,σ) - parametrii

Distibutia normala standard: e folosita pentru comparatie,

Distributia logic- normala: multe variabile biologice care nu pot lua valori negative pot avea o

distributie asimetrica, o coada lunga in dreapta.

- logaritmul variabilelor este distribuit conform curbei Gauss.

f(logx, ,σ) - parametrii

Distributia exponentiala: - asimetrica, intalnita in cazul variabilelor temporale, care se refera la

momentul aparitiei unui fenomen

Ex: moartea unui individ, inflorirea

1 / λ = timpul mediu pana la prima manifestare a fenomenului

Distributia Weibull: - foarte flexibila (are forme diferite) poate imita distributia normala sau

exponentiala in functie de parametrii functiei.

f(x, k/, λ/ k() > 0 - parametru de forma λ( - parametru de scara

- des folosita in analiza supravietuirii organismelor

Prin calcularea frecventelor si compararea lor cu frecventele observate cu ajutorul unui test de calitate a ajustarii( goodness-of-fit), se poate evalua daca (in ce masura) o variabila prezinta una din aceste distributii teoretice.

Curs II

Distributii ale indicilor statistici

Sunt folosite pentru a estima probabilitatea de a obtine anumite valori ale indicilor statistici, intr-un interval dat. IS= variabile aleatoare in comparatie cu parametrii (e fix)

Ex.: media reala= parametru populational

media estimata prin esantionaj= indice statistic

indicele z= corespunde distributiei normale standard

a. Media: cel mai simplu indicele statistic, media aritmetica a valorilor variabilelor respective.

b. Mediana: - valoarea mijlocie a unui set de date

- estimator mai bun decat media al centrelor distributiilor asimetrice, mai robust in raport cu prezeta valorilor extreme

c. Variabilitatea: imprastierea valorilor unei variatii in jurul mediei, este masurata prin varianta

d. Deviatia standard:

e. Eroarea standard:

In cazul unei distributii normale (box-plot) mediana= medie= modul, cad in acelasi punct.

Testarea ipotezelor statistice:

Elaborarrea ipotezei nule si alegerea testului statistic corespunzator.

Specificarea nivelului critic de semnificativitate prin intermediu probabilitatii de transgresiune

Colectarea datelor printr-un esantionaj aleatoriu si calcularea ipotezei statistice

Compararea valorii IS cu distributia standard (tabel), presupunem ca ipoteza nula este adevarata.

Daca probabilitatea este mica de a obtine o valoare egala (a IS) sau mai mare decat pragul minim prestabilit a probabilitatii de transgresiune, se poate respinge ipoteza nula si se accepta alternativa ei. Daca probabilitatea e egala sau mai mare decat nivelul critic de semnificativitate se accepta ipoteza nula (ipoteza nula nu se poate respinge fiind probabilitatea adevarata test nesemnificativ. Nu inseamna ca

ipoteza nula e adevarata, nr. prea mic de esantioane, alegerea gresita a populatiilor, erori de masurare

Distributia normala media= mediana = cea mai comuna valoare

Testul cu 1 si 2 cozi:

- ipoteza nula corespunde lipsei vreunui efect asupra variabilei de raspuns, ipoteza alternativa poate fi in orice directie;    pozitv sau negativ

Daca ipoteza e neclara se aplica un test cu 2 cozi, valorile extreme ale indicelui (din orice capat al distributiei standard) va determina respingerea ipotezei nule.

Test cu o coada: - valorile extreme din un capat al distributiei standard determina respingerea ipotezei nule

- uneori ipoteza nula indica daca efectul variabilelor independente conduce la cresterea sau scaderea variabilei de raspuns;

Teste parametrice si prezumtia lor

Toate testele statistice se bazeaza pe prezumtii.

  1. Observatiile, datele prezinta o distributie normala (gaussiana).
  2. Datele provin din distributii cu variante egale.
  3. Observatiile s-au facut pe baza unui esantionaj aleator, observatiile sunt independente.

Teste neparametrice

iau in considerare rangul datelor numerice, nu si valoarea lor

se bazeaza pe prezumtia 2 si 3, distributia datelor putand lua orice forma

mai robuste fata de valorile extreme

Transformarea datelor

Obiective:

sa aduca datele mai aproape de distributia normala

sa mareasca omogenitatea variantei

sa reduca influenta valorilor extreme

sa imbunatateasca liniaritatea in regresii

sa reduca efectul de interactiune dintre variante astfel ca acestea sa aibe efecte aditive, nu multiplicative.

Modalitati de transformare:

logaritmare: datele au o asimetrie pozitiva, coada lunga in dreapta ln(x+1) x= 0 ln1= 0

radacina patrata: variabilele exprima un nr. de indivizi, celule

asimetrie negativa, coada spre stanga x'

comuna in fitosociologie x' = arc sin ()

Date truncate

se intalnesc rar, impun teste specifice

pot aparea cand se inregistreaza intervalul de timp scurs pana la producerea unui eveniment ce se produce o singura data (moarte, disparitie, pierdere)

daca observatiile au fost inregistrate ca fiind mai mici atunci e vorba de date truncate

instrumentele de masura au ajuns la limita superioara sau inferioara de detectivitate

Corelatii

- iau valori intre -1 si 1 corelatie perfecta pozitiva

corelatie perfecta 0 = absenta corelatiilor

- semnificativitatea statistica a unui coeficient de corelatie poate fi estimata prin probabilitatea asociativa.

Ipoteza nula ar fi: cele 2 variabile sunt independente corelatia poate fi liniara sau neliniara

Coeficientul lui Pearson:

cel mai cunoscut coeficient parametric (distributia trebuie sa fie normala)

masoara doar corelatia liniara dintre 2 variabile

Coeficientul lui Spearman:

neparametric (pentru ca ia doar rangurile in calcul si nu valoarea absoluta)

! poate pune in evidenta corelatii neliniare, dar monotonice (crescatoare/ descrescatoare)

Corelatii partiale: iau in considerare efectul unor forte variabile

O variabila poate sa mascheze corelatia dintre 2 variabile daca efectul nu este luat in calcul.

Curs III

Modele liniare

- consta intr-o variabila dependenta (de raspuns) y si de una/ mai multe variabile independente (de predictie)

termen rezidual y- o variabila de ratie, de interval, ordinala x- orice fel de variabila

Regresia liniara simpla

y= ax+b x,y = variabile continue de ratie sau de interval

obiectiv important in biologie, se foloseste pentru a face predictii fara sa fie distrus acel individ.

variabila y trebuie sa fie aleatoare, se obtin diferite valori ale lui y in functie de valoarea lui x

variabila x trebuie sa aibe valori fixe, prestabilite de cercetator sau masurate fara eroare

cu cat e "a" mai mare, efectul variabilei x asupra variabilei y este mai puternic

Prezumtii:

Toate modelele lineare sunt analize parametrice, se pleaca de la prezumtia ca x,y au distributii normale.

Variantele lui y pentru diverse valori a lui x sunt egale.

Valorile lui y sunt independente (au fost obtinute in urma unui esantion aleator, valoarea lui y nu prezinta autocorelatie spatiala/temporala. Ex: temperatura aerului)

Intensitatea relatiei lineare (magnitudinea efectului) dintre x, y poate fi judecata prin intermediul coeficientului de regresie standardizat a lui x. ( a,b- coeficient de regresie) Se variaza x cu o unitate (x-a) si se observa cum influenteaza y.

In analiza regresiei liniare obtinem coeficientul de determinare (out put) r, in cazul regresiei liniare simple este egal cu coeficientul Pearson la patrat

r spune cat la suta din varianta lui y poate fi explicata pe baza variabilitatii variabilei x

in out-put se interpreteaza coeficientul de determinare ajustat = r ajustat cu gradele de libertate

nr. gradelor de libertate: n-1 cu cat e mai mare cu atat scade in raport cu r pentru intregul model liniar

Pentru testul F ipoteza nula este: nu exista nici o relatie liniara intre y si x. Daca probabilitatea este mica (< 0,005, < 0,001) se accepta alternativa, exista o relatie intre y si x.

Daca x=y ipoteza nula este: valoarea lui "a" nu este semnificativa daca e diferita sau egala cu 0.

Daca testul F e semnificativ si "a" este semnificativ.

In output apare:

tabelul "Lock-of-fit" (lipsa ajustarii) care include un test statistic pentru obtinerea unei ajustari mai bune printr-un model mai complex, care nu e linear

Ipoteza nula: modelul linear este suficient de complex, bun pentru a nu obtine o crestere semnificativa a coeficientul de determinare ajustat (prin folosirea unui model mai complex)

In general ipotezele nule nu sunt adevarate.

- tabelul de estimare a parametrilor (coeficientul de regresie) apar valorile estimate a lui a,b si testul t/student

La testul t "a" are aceasi valoare ca la testul F daca e nesemnificativ (a=0, nesemnificativ) nu se trece la

testul urmator; daca o ecuatie trece prin origine putem spune ca b=0 se obtine doar estimarea lui "a"

Diagnoza regresiei:

Influenta unor factori extremi, din partea lui x sau y, poate determina o estimare slaba a coeficientul de regresie.

Metode pentru diagnosticarea regresiei:

1. Coeficientul lui COOK-D: daca avem valori extreme care au o influenta semnificativa asupra coeficientului de regresie estimat.

2. Puterea (analiza puterii): Puterea analizei regresiei liniare simple se poate calcula pentru fiecare coeficient de regresie estimat

Daca valorile puterii () sunt peste 95% sunt semnificative.

Un bun indicator al puterii este valoarea minima semnificativa (LSN) care se refera la nr. minim de probe sau esantioane care ar trebuii sa fie in matricea de Input pentru a detecta o valoare a parametrilor regresiei la un nivel prestabilit al probabilitatii de transgresiune .

Puterea poate analiza regresia, estima coeficientii a,b pentru un nivel prestabilit al probabilitatii .

Daca valoarea a,b e nesemnificativa 0 se liniarizeaza relatia dintre a,b.

Modalitati de transformare:

O regresie semnificativa nu inseamna ca intre variabilele x,y exista o relatie cauza-efect.

independent de cauza efectul

Variabila x poate influenta indirect variabila y (printr-o forta variabila) sau cele doua variabile covariaza

fiind controlate de forte variabile.

Regresia liniara multipla:

sunt mai multe variabile x ()

din punct de vedere geometric ecuatia (tridimensional) reprezinta coeficientul a,b= pantele pentru y cand cealalta variabila este constanta ()

ipoteza nula: toti coeficientii de regresie = 0

Prezumtii suplimentare fata de regresia liniara simpla:

  1. variabilele x nu trebuie sa fie corelate intre ele
  2. nr. de observatii trebuie sa fie mai mare decat nr. variabilei x

Factorul de interactiune () induce, daca e semnificativ (prin prisma valorii lui c), un efect de coliniaritate (violarea primei prezumtii anterioare) incat termenul de interactiune este implicit bine corelat cu variabilele .

Prezenta coliniaritatii poate fi evidentiata prin inflatia variantei (VIF) (daca valorile sunt peste 10 indica

existenta coliniaritatii nu putem avea incredere in valorile, rezultatele obtinute.

Reducerea coliniaritati:

Daca cele doua variabilesunt foarte bine corelate intre ele atunci includ o informatie redundanta (repetitiva); una dintre cele 2 variabile e eliminata din model, aceasta duce la regresia multipla si apoi la regresia simpla

Daca variabilele sunt slab/ deloc corelate, se impune centrarea celor doua variabile care se realizeaza prin scaderea mediei din fiecare valoare a lui x.

Transferul nu afecteaza coeficientul de regresie si nici ipoteza nula.

Curs IV

Regresia polinomiala

y= Ipoteza nula: toti coeficientii,

se manifesta coliniaritatea, nu e bine daca e prea mare

se face centrarea variabilei x: x= (x-)

indicatorul coliniaritatii este inflatia variantei (VIF)

Variabile indicatoare in regresie

Intr-un model de regresie se pot introduce variabile continue (obligatorii y) si discontinue (variabile independente x) sub forma variabilelor indicatoare (dummy).

Pentru o variabila nominala (x) se creaza c-1 variabile binare, c= nr. starilor, nivelelor (variabilei originale)

O variabila nominala (folosinta pajistilor) are 4 stari posibile (pasune, faneata, folosinta mixta, neexplorat) se creaza 3 variabile indicatoare (dummy), care sunt binare:

1- explorat ca pasune 0- orice mod de folosire

1- explorat ca faneata

1- explorat in regim mixt

Coeficientul de regresie ai variabilelor indicatoare masoara efectul diferential al fiecarui nivel in

comparatie cu nivelul de referinta (neexploatat).

Selectarea celui mai bun model de regresie

- se face un compromis intre maximizarea variantei explicate a lui y si obtinerea unui model cat mai simplu

Ex: (2 variabile)- mai bun

(5 variabile)

O modalitate obiectiva de a selecta modelul potrivit este compararea coeficientiilor de determinare ajustati

(cu cat e mai mare cu atat e mai bine) sau a indicelui Akoiche (cu cat e mai mic e mai bun).

Regresia logistica simpla:

- permite ajustarea probabilitatiilor unei variabile de raspuns discontinue in functie de o variabila independenta continua

y= variabila nominala sau de interval discontinua

x= variabila continua

daca y este variabila ordinala se estimeaza probabilitatea de a obtine o valoare (stare) a lui y mai mica sau egala cu un nivel (stare) dat al variabilei y

daca e variabila nominala se partitioneaza probabilitatea intre diferite raspunsuri

In ambele cazuri se estimeaza un set de curbe (nr. lor este c-1, c- nr. nivelelor sau starilor variabilei y) cu pante egale dar intercept diferit.

Ecuatia:

y este 1     y nu este 0

PH= 5,2    PH= 4,5

Analiza univariata a variantei

- exista un singur x     Ecuatie:

Diferenta dintre analiza variantei si regresiei x- variabila discontinua (nominala, ordinala)

y- variabila continua (de ratie, de interval)

Trebuie sa existe suficiente replicatii (valorile lui y pentru fiecare nivel/stare al variabilei x) si preferabil nr. replicatiilor sa fie egal.

Ipoteza nula: nu exista diferente semnificative intre mediile lui y calculate pentru diverse grupe determinate de x

Ex: y= fitomasa uscata (kg/ha)

y mediu ? y mediu

 
x= - pajiste- faneata (f) 30 parcele

- pasune- pasunat (p) 30 pasuni

Analiza univariata a variantei intre grupe

- "intre grupe" inseamna ca grupurile de subiecti (tratamentele aplicate) definite de variabila x sunt independente

Fiecare subiect este tratat (masurat) o singura data, nu este implicata variabila temporala!

Prin transformarea lui y relatia devine liniara. Cel mai frecvent in biologie:

y este o variabila binara (prezent, absent, viu, mort) are 2 stari, rezulta o curba

ipoteza nula: daca b=0 nu exista o relatie intre x, y

probabilitatiile sunt masurate pe verticala, intre curbe; totalul lor este 1 (100%)

daca x nu are efect asupra lui y, curbele sunt paralele cu abscisa

toate testele din output compara modelul cu altele mai simple sau mai complexe

Testul modelului per ansamblu

este analog testului ANOVA de la regresia liniara(analyses of variance)

daca testul e semnificativ ne spune daca modelul este semnificativ mai bun decat un model care contine doar interceptul (a) fara nici un efect (b=0)

Testul de lipsa ajustarii (Lock of fit)

trebuie sa fie semnificativ ca sa ne spune daca un model mai complex (polinominal) este semnificativ mai bun decat cel specificat

Testul Wald si raportul de probabilitate

ne spune in ce masura modelul este mai bun decat un model fara efectul in cauza (x), daca e semnificativ y poate lua diferite stari

Analiza variantei e o metoda prin care varianta totala a variabilei de raspuns y este descompusa intre varianta datorata variabilei independente x si cea indusa de factori necunoscuti

varianta= dispersia valorii

Varianta mare intre grupe: - F mare- masa e influentata de modul de folosinta

- F mic- masa nu e influentata

Analiza variantei univariata intre grupe este echivalenta cu testul t- student pentru esantioane independente.

ANOVA superioara testului t-student, aplicat pentru 2 nivele punctului x

Ipoteza nula: in populatia studiata nu exista diferente semnificative intre diversele grupuri (tratamente) in ce priveste media variabilei de raspuns y din fiecare grupa. Grupurile sunt definite de variabila x.

ANOVA foloseste indicele F, daca F e suficient de mare, se respinge ipoteza nula si se alege alternativa

In afara de semnificatia diferentei dintre medii, rezultatele se pot determina prin coeficientul de determinare

indica magnitudinea efectului (x) (modul de folosinta a pajistilor asupra fitomasei, y)

In output avem un test pentru intregul model, daca e semnificativ se trece la compararea mediilor, daca nu e semnificativ nu exista relatie intre x, y.

Spre deosebire de regresia liniara simpla in output din ANOVA nu ne intereseaza in mod special valorile coeficientiilor a,b ci testul efectului x asupra lui y (in ce masura efectul diverselor tratamente/stari ale lui x au o influenta semnificativa asupra variabilei de raspuns y).

Diferenta dintre replicatii (grupuri) sa nu fie mai mare de 20%

In cazul unui design neechilibrat (inegal) mediile sunt ajustate in mod automat, cu nr. de probe din acel grup.

Ideal este ~30 probabilitate pentru fiecare grupa.

O prezumtie care trebuie indeplinita este omogenitatea, egalitatea variantei intre grupe.

Ca sa verificam daca variantele sunt sau nu diferite se face un alt test:

O'Brn

Brown-Forsythe teste de

Levene    ajustare a

Bartlett    variantelor

Ipoteza nula: variantele sunt egale. (nu e bine daca e respinsa)

Welch ANOVA daca cele 4 teste sunt semnificative se aplica testul F

Prezumtii:

y- distributie normala

valorile lui y sa fie independente, din esantionaj obligatoriu

daca varianta x are 2 stari ANOVA t student

nr. comparatiilor = c= nr. starilor variabilei x

Curs V

Anova compararea mediilor

ipotezele nule sunt egale

Datorita analizei variantei intre grupe probabilitatea de a gresi (a respinge o ipoteza nula, care de fapt e adevarata sau invers) creste odata cu numarul de comparatii de efectuat; se opereaza ajustari ale nivelului critic de trangresiune: nr. maxim al comparatiilor: c - nr. nivelelor (starilor) factorului x

Aceste ajustari se obtin automat prin softuri, 2 procedee cons cele mai robuste:

REGW= Ryan-Einot-Gabriel-Welsch cel mai bun

Tukey

Daca unul dintre nivele/ grupe este cons ca referinta (martor) si celelalte grupe sunt comparate doar cu acesta atunci cea mai robusta ajustare a probabilitatii se face prin Dunnett.

Puterea de detectie are acelasi valoare cu cel de la regresie.

Nr. minim de replicatii si pragul critic de transgresiune indica credibilitatea rezultatelor obtinute.

A(necesar pt. fiecare grup pt. detectarea diferentelor intre grupe data fiind varianta estimata a lui y)

Analiza simpla a variantei in interiorul grupelor

ONE WAY ANOVA within groups

ONE WAY repeted measures ANOVA

Fiecare subiect este expus fiecarui tratament, se efectueaza masuratori repetate a variabilei y de raspuns.

Se foloseste pentru a studia procese dinamice (in timp) si dependenta cauza- efect prin compararea raspunsurilor subiectiilor inainte si dupa tratament. Daca factorul temporal are 2 nivele, momente de masurare atunci analiza este echivalenta cu testul t- Student pentru esantioane dependente, date perechi(paired data).

Pentru mai mult de 2 moment testul t nu poate fi aplicat.

Interpretarea rezultatelor are 2 etape:

Semnificatia efectului produs de tratament asupra aceluiasi subiectului.

Daca modelul e semnificativ se trece la compararea mediilor obtinute in diferite momente ale tratamentului.

Are avantajul eliminarii variantei reziduale (rckstndig) a diferentei dintre subiecti si al eficientei obtinute folosirii unui nr. redus de subiecti.

Dezavantaj: lipsa unor subiecti de control

Prezumtia de omogenitate a covariantei (=sfericitate) este foarte importanta pentru veridicitatea rezultatelor. De aceea se impune aplicarea testului Mauchly bazat pe distributia , fiind un test de sfericitate. Deviatii semnificative de la sfericitate sunt evidentiate de valori mici ale probabilitatii asociate. Daca:

deviatiile sunt mici pot fi compensate prin aplicarea testului f modificat (ajustari Greenhouse-Geisser)

deviatiile sunt mari (p sub 0,01) se utilizeaza teste multivariate, tratamentul este aplicat la intervale diverse de timp ca niste variabile dependente de raspuns separate, dar corelate intre ele.

y= x+a+ a= intercept

Daca nr. subiectilor este mic, mai putin de 20 ori nr. tratamentelor testul de sfericitate nu are putere de detectie.

trebuie folosita abordarea multivariata

Raspunsul subiectiilor poate fi viciat de ordinea aplicarii tratamentelor, se recomanda foosirea unui design de contrabalansare ce consta in aplicarea tuturor combinatiilor de ordine a tratamentului unui numar egal de subiecti.

Efectul tratamentelor anterioare care poate persista si vicia raspunsul subiectiilor la tratamentele ulterioare se poate evita partial prin marea separare in timp a tratamentelor. (Efectul Placebo)

A-B-C A-C-B

B-A-C B-C-A

C-A-B C-B-A

Curs VI

Teste neparametrice corespunzatoare ANOVA

Daca prezumtia de normalitate a variabilei de raspuns y nu este respectata si sau exista valori extreme in distributia lui y apelam la teste neparametrice. Prezumtia de egalitate a variantelor trebuie luata in considerare si la testele neparametrice. Ipoteza nula nu se mai refera la medii ci la distributii de localizare a distributiei.

daca datele provin din grupuri independente corespunde lui ANOVA intre grupe se poate aplica testul Mann-Whitney sau Wilcoxon atunci cand n= 2 (testul se bazeaza pe aproximarea normala z sau

ce corespunde indicilor statistici)

daca avem mai multe grupe se foloseste testul Kruskal-Wallis n>2 (se bazeaza numai pe aproximarea )

daca se impune efectuarea de comparatii multiple unui model Kruskal-Wallis atunci se pot nula mai multe teste Wilcoxon pentru toate perechile pe care vrem sa le comparam. A-B B-C A-C

Ulterior probabilitatile de transgresiune trebuie ajustate (ca la ANOVA) fie automat, fie manual pentru ca majoritatea programelor de calcul nu au implementata aceasta procedura.

Se recomanda ajustarea Bon Ferroli secventiala propusa de Hochberg; se incepe cu valoarea p cea mai mare si se continua pana la cea mai mica.

Prima valoare este comparata cu (5%, 1%):

- daca testul e semnificativ atunci toate pot fi considerate semnificative

- daca nu, valoarea urmatoare a lui p este comparata cu , a treia cu

- daca datele provin din grupuri dependente (corespunzator lui ANOVA in interiorul grupelor) se poate aplica testul rangurilor semnate a lui Wilcoxon (cand sunt 2 grupe) sau testul Friedman cand n>2

Calculeaza indicele z (pentru aproximarea normala)    calculeaza indicele a lui Friedman

indiciile au asociati o probabilitate de transgresiune se poate pune probabilitatea

comparatiilor multiple

Teste de asociere intre variabile discontinue

y= - regresie regresie logistica= x ANOVA

In cazul a 2 variabile discontinue se poate construi un tabel de contingenta al carui nr. de randuri si coloane corespunde cu nr. nivelelor celor 2 variabile. In interiorul fiecarei casute din tabel se indica nr. de cazuri corespunzatoare starilor celor 2 variabile.

Ipoteza nula: cele 2 variabile sunt independente, nu exista nici o asociere intre ele;

Testul Pearson: - cel mai cunoscut care se poate aplica tabelelor de contingenta de diverse dimensiuni (lxc)

a

b

c

d

Indicele statistic se calculeaza in functie de observate (a,b,c,d) si cele teoretice (asteptate) in cazul unei distributii intamplatoare frecventa teoretica pentru o anumita casuta din tabelul de contingenta este egala cu totala pe acel rand. totala pe coloane reprezinta impartita cu nr. total de observatii.

a=     a >> a a << a

Ca orice indice statistic, este insotit de o probabilitate de transgresiune pe baza careia se poate aprecia semnificatia ei statistica.

Acest test nu poate fi validat daca cel mult 20% din casute au teoretice < 5.

Testul lui Fischer sau G se putea aplica pentru tabele de contingente de 2x2, apoi a fost generalizat.

O alta alternativa la testul care se poate aplica ori de cate ori una din variabile poate fi considerata de raspuns si alta de predictie (independenta) este regresia logistica nominala. Deosebita fata de regresia logica clasica este ca foloseste o variabila indicatoare in locul celei discontinue, de predictie.

Curs VII

Analiza supravietuirii

Scopul: estimarea ratei de supravietuire/ mortalitatii si modul in care variaza in timp.

Se fac observatii repetate, la intervale de timp egale asupra indivizilor unei populatii.

Nu raman aceasi indivizi, unii pot murii sau se pot pierde, iar indivizi noi pot fi adaugati in esantionaj.

In momentul fiecarui observatii se inregistreaza starea fiecarui individ, viu sau mort. Un astfel de studiu impune si manipularea unor factori (la plante: lumina, toxine) care pot determina moartea. Se intampla frecvent ca datele inregistrate sa fie truncate (censored) deoarece nu se cunoaste exact timpul de vietuire pentru indivizii ramasi vii pana la sfarsitul studiului ci doar k e mai mare decat o anumita valoare. Acest lucru se intampla din 2 motive:

  1. fie la terminarea studiului mai exista indivizi vii
  2. fie o serie de indivizi au fost pierduti (au migrat, au murit din cauze independente in afara de cauza manipulata) inainte de incheierea experimentului.

Timpul de supravietuire reprezinta distributii asimetrice de tip exponential, log-normal sau Weibull.

Un model matematic pentru supravietuirea indiviziilor trebuie sa fie compus din 2 variabile:

  1. variabila temporala de raspuns y care indica intervalul de timp scurs pana la moartea indivizilor sau pana cand au fost observati vii.
  2. O variabila de cenzurare care denota in ce masura timpul de supravietuire inregistrata este real sau truncat. GMP (0= real 1=truncat)
  3. Optional o variabila explicativa (manipulata, controlata) care influenteaza direct sau indirect moartea indiviziilor.

Metoda statistica KAPLAN-MEIER

Se urmareste:

  1. reprezentarea grafica a functiei estimate de supravietuire pentru fiecare grup de indivizi sau pentru toate grupele reunite.
  2. Calcularea valorilor estimate ale functiei de supravietuire pentru fiecare grup sau pentru toate grupele reunite.
  3. Testarea statistica a omogenitatii a functilor de supravietuire estimate intre grupe pe baza indicilor statistici log-Rank si Wilson ( = functia, ecuatia de supravietuire e aceasi intre grupele de indivizii destinsi)
  4. Optional estimarea parametrilor, distributiilor modelate precum si reprezentarea grafica.

In output este si tipul median de supravietuire care reprezinta intervalul de timp in care jumatea din subiecti au murit.



Politica de confidentialitate | Termeni si conditii de utilizare



DISTRIBUIE DOCUMENTUL

Comentarii


Vizualizari: 1693
Importanta: rank

Comenteaza documentul:

Te rugam sa te autentifici sau sa iti faci cont pentru a putea comenta

Creaza cont nou

Termeni si conditii de utilizare | Contact
© SCRIGROUP 2024 . All rights reserved