Scrigroup - Documente si articole

     

HomeDocumenteUploadResurseAlte limbi doc
AnimaleArta culturaDivertismentFilmJurnalismMuzica
PescuitPicturaVersuri

Distributia multinomiala - Testele chi-patrat

diverse



+ Font mai mare | - Font mai mic



Distributia multinomiala - Testele chi-patrat

Distributia multinomiala



Evenimentele de tip binomial se caracterizeaza prin caracterul dihotomic, putand lua doar doua valori. Exista insa si evenimente care pot lua mai mult de doua valori posibile (trei sau mai multe). De exemplu, daca presupunem ca exista doar trei tipuri de liceu, atunci absolventii de liceu, ar putea face parte dintr-una din urmatoarele categorii: "umanist", "real", "artistic". Daca raportam frecventa de aparitie a fiecarei categorii (numarul subiectilor care au absolvit un anumit tip de liceu) la totalul subiectilor, probabilitatile aferente fiecarui tip de liceu sunt, respectiv, P, Q si R. Intr-o asemenea situatie P+Q+R=1. Pe aceasta baza, putem scrie probabilitatile pentru fiecare "eveniment" dupa modelul: Q=1-P-R.

Sa luam in considerare situatia in care toate liceele ar avea acelasi numar de absolventi. In acest caz, P=Q=R=1/3=0.33 (alegerea unor ponderi diferite, asa cum este si cazul in realitate, nu ar schimba datele rationamentului care urmeaza, dar l-ar face mai putin evident). Mai departe, sa ne imaginam ca analizam tipul de liceu absolvit de studentii unei facultati de psihologie si constatam ca din 100 de studenti 60 sunt absolventi de liceu "umanist", 30 au absolvit un liceu cu profil "artistic" si 10, unul cu profil "real". Ponderea studentilor la facultatea respectiva este, evident, diferita de ponderea din cadrul populatiei de absolventi. Pe baza acestor date, se poate afirma ca absolventii de profil "umanist" si "artistic" prefera psihologia mai mult decat care au absolvit un profil "real"? Sau, intr-o formulare mai larga, se poate afirma ca exista o relatie intre tipul de liceu absolvit si preferinta pentru psihologie ca specialitate universitara?

Inainte de a raspunde la aceasta intrebare, sa analizam putin datele sugerate de exemplul de mai sus. Asa cum am spus, numarul studentilor la facultatea de psihologie este, in functie de tipul de liceu absolvit, de 60, 30, respectiv, 10. Aceste valori se numesc "frecvente observate" sau "frecvente calculate" (notate cu fo de la Observed), fiind rezultatul masurarii in contextul cercetarii. Daca preferinta pentru facultatea de psihologie nu ar fi in legatura cu liceul absolvit (ipoteza de nul), atunci cercetarea ar trebui sa consemneze un numar egal de studenti provenind din fiecare tip de liceu. In exemplul dat, acest numar ar trebui sa fie, pentru fiecare tip de liceu 100/3=33.3, care se numeste "frecventa teoretica" sau "frecventa asteptata" (notata cu fe de la Expected). Este usor de intuit faptul ca, cu cat frecventele calculate (reale) sunt mai indepartate de cele asteptate (teoretice), cu atat ele se apropie de situatia de a fi "semnificativ diferite" de acestea. Mai departe, nu ne ramane decat sa gasim o procedura pentru calcularea distantei dintre cele doua tipuri de frecvente si un model de distributie pentru rezultatul acestui calcul, in raport cu care sa putem lua o decizie cu privire la ipoteza de nul.

Datele din exemplul dat nu mai pot fi analizate prin prisma distributiei binomiale deoarece implica mai mult decat doua "evenimente" posibile. De aceea, distributia acestora se numeste "distributie multinomiala". Desigur, procedura de calcul pentru acest caz ar putea urma modelul celei binomiale dar, din cauza complexitatii acestei solutii, s-a apelat la o solutie mai simpla. Aceasta este fundamentata pe o aproximare derivata din formula binomiala a lui z, care este pur si simplu ridicata la patrat, devenind:


Daca inainte de ridicarea la patrat z urmeaza o distributie normala, dupa ridicarea la patrat z urmeaza un alt tip de distributie, numita "chi-patrat", simbolizata cu litera greceasca χ, cu indicele de ridicare la patrat (χ2). Valorile distributiei χ2 se calculeaza ca raport dintre frecventele observate si cele teoretice, iar caracteristicile ei esentiale sunt urmatoarele;

.   este, la fel ca distributia normala, o familie de distributii;

.   are forma asimetrica;

.   are originea in zero (din cauza ridicarii la patrat);

.   are o forma dependenta de numarul de grade de libertate.

Imaginea de mai jos prezinta mai multe distributii chi-patrat, pentru diferite grade de libertate (vom vedea mai tarziu cum se calculeaza acestea).

Curbele distributiilor chi-patrat pentru 1, 2, 4, 6 si 10 grade de libertate

Tabelul de corespondenta (contingenta) pentru date nominale

Inainte de a trece la testul propriu-zis, este util sa aruncam o privirea asupra modului de organizare a datelor pentru o situatie similara exemplului de mai sus. In acest scop, putem sa ne permitem o largire a cadrului de investigare. Sa presupunem ca avem cele trei categorii de liceu si ne intereseaza distribuirea lor, nu in legatura cu o singura facultate (cea de psihologie), ci in legatura cu trei tipuri de facultati: "umaniste", "artistice" si "tehnice".

Daca realizam un cadru de reprezentare sintetic al valorilor celor doua variabile, obtinem ceea ce se numeste un tabel de corespondenta. Iata cum ar arata un astfel de tabel, pentru un set de date ipotetice:

Liceu umanist

Liceu real

Liceu artistic

Total pe linii

Fac. Umaniste

45

20

30

95

Fac. Tehnice

14

60

12

86

Fac. Artistice

20

13

50

83

Total pe coloane

79

93

92

264

Acesta este un tabel de corespondenta pentru doua variabile nominale, fiecare avand cate trei valori distincte (categorii)1. Valorile din celule reprezinta numarul de cazuri (frecventele observate) care corespund fiecarei combinatii dintre categoriile celor doua variabile. "Totalul pe linii" exprima numarul de studenti din fiecare facultate, consemnati in

1 In mod similar, se pot crea tabele de corespondenta pentru variabile categoriale avand, fiecare, un numar diferit de valori (categorii).


cercetare, indiferent de tipul de liceu absolvit, "totalul pe coloane", exprima numarul de absolventi din fiecare tip de liceu, indiferent de facultatea la care sunt inscrisi, iar la intersectia celor doua totaluri regasim totalul general al subiectilor cercetarii (N=264).

Fundamentarea testului statistic

Avand un numar de 95 de studenti in "facultati umaniste", aceasta inseamna ca ei reprezinta 36% din totalul subiectilor cercetarii (95/264*100=36). Acest procent indica se refera la absolventii care au ales o facultate de tip umanist, indiferent de liceul absolvit. In mod similar, calculam procentele corespunzatoare celorlalte tipuri de facultati. Valorile astfel calculate, pentru fiecare linie a tabelului, se numesc frecvente marginale.

Daca alegerea facultatii nu ar avea nici o legatura cu tipul de liceu absolvit atunci, in mod normal, ar trebui sa regasim, pentru fiecare tip de liceu, acelasi procent care exprima ponderea studentilor din fiecare facultate in totalul subiectilor cercetati. Avand procentele studentilor din fiecare facultate si numarul absolventilor din fiecare tip de liceu, putem calcula frecventele "teoretice" (asteptate) pentru fiecare celula a tabelului. De exemplu, dintre cei 79 de absolventi de liceu umanist consemnati de cercetare, 36% ar trebui sa se afle in facultati umaniste, ceea ce inseamna: (79*36)/100=28.4. In mod similar, ar trebui sa avem 32.5% (25.6) in facultati stiintifice si 31.5% (24.8) in facultati artistice. Acelasi rationament se aplica mai departe si celorlalte tipuri de liceu, cu utilizarea procentului corespunzator fiecarei facultati. Precizam ca frecventele teoretice (asteptate) vor fi aceleasi, in fiecare celula, chiar daca vor fi calculate pe baza frecventelor marginale de pe coloane.

Liceu umanist

Liceu real

Liceu artistic

Total pe linie

% pe linii

Fac. Umaniste

45 (28.4)

20 (33.4)

30 (33.1)

95

(95/264)* 100=36%

Fac. Tehnice

14 (25.6)

60 (30.2)

12 (29.9)

86

(86/264)* 100=32,5%

Fac. Artistice

20 (24.8)

13 (29.2)

50 (28.9)

83

(83/264)* 100=31.5%

Total pe coloana

79

93

92

264

Asa cum constatam, intre frecventele observate si cele asteptate sunt diferente. Suma frecventelor asteptate (teoretice) este egala cu suma frecventelor observate (poate rezulta o anumita diferenta intre totaluri, ca urmare a aproximarii zecimalelor).

In final, problema cercetatorului este aceea de a stabili daca intre frecventele observate si cele teoretice (calculate) este o diferenta care sa justifice aprecierea ca intre cele doua variabile exista sau nu o legatura. Datele de acest gen nu mai pot fi analizate prin prisma distributiei binomiale, deoarece implica mai mult decat doua "evenimente" posibile. De aceea, distributia acestora se numeste "distributie multinomiala". Desigur procedura de calcul pentru acest caz ar putea urma modelul celei binomiale dar, din cauza complexitatii ei, s-a apelat la o solutie mai simpla. Aceasta solutie este fundamentata pe o aproximare derivata din formula binomiala a lui z, care este pur si simplu ridicata la patrat, devenind:

z2 (X-N*P)2

Daca inainte de ridicarea la patrat z urmeaza o distributie normala, dupa ridicarea la patrat z urmeaza un alt tip de distributie, numita "chi-patrat", simbolizata cu litera greceasca χ cu indicele de ridicare la patrat (χ2). Fara a intra in amanunte, vom preciza ca distributia χ2 prezinta urmatoarele caracteristici:


.         este, la fel ca si distributia normala, o familie de distributii;

.         are forma asimetrica;

.         are originea in zero (din cauza ridicarii la patrat);

.         are o forma dependenta de numarul de grade de libertate.

La fel ca si distributiile t si F, distributia χ2 este dependenta de numarul gradelor de libertate. Acestea se calculeaza pe baza tabelului de corespondenta dintre cele doua variabile, astfel:

df=(numar coloane-1)*(numar linii-1)

Formula de calcul pentru testul chi-patrat, derivata din formula 4.8, este :

unde fO este frecventa observata, iar fE, frecventa asteptata.

Decizia pentru testul chi-patrat se bazeaza pe compararea valorii calculate cu o valoare critica, corespunzatoare nivelului alfa ales (0.05 sau, optional, mai mic). Valorile critice pentru distributia chi-patrat se gasesc intr-o tabela speciala (vezi anexa). Daca valoarea calculata a lui χ2 este egala sau mai mare decat valoarea critica pentru nivelul ales al lui alfa, atunci ipoteza de nul poate fi respinsa, iar ipoteza cercetarii confirmata.

Pe aceasta structura formala se bazeaza doua variante distincte ale testului chi-patrat: testul corespondentei (Goodness of Fit) si testul asocierii. Primul, compara frecventele observate ale valorilor unei singure variabile cu frecventele asteptate pentru acele valori. Al doilea, compara frecventele valorilor observate pentru doua variabile cu frecventele lor asteptate, cu scopul de a testa relatia (asocierea) dintre cele doua variabile.

Chi-patrat pentru gradul de corespondenta (Goodness of Fit)

Aceasta varianta a testului chi-patrat compara frecventele observate ale unei distributii cu frecventele teoretice (asteptate) ale acelei variabile. De exemplu, daca avem frecventele unei variabile putem afla daca aceasta se distribuie dupa curba normala (z), prin compararea cu frecventele cunoscute ale acestei distributii (aria de sub curba).

Sa presupunem ca a fost aplicat un test de cunostinte unui esantion de 200 de elevi, care a fost evaluat cu calificative, astfel: F.Slab, Slab, Mediu, Bun, F.Bun.

Problema cercetarii: Calificativele obtinute se distribuie normal la nivelul clasei?

Populatia 1: Calificativele obtinute de elevi.

Populatia 2: Calificativele, asa cum s-ar distribui pe o curba normala: FS=2.5%,

B=14%, M=67%, B=14% si FB=2.5% (procentele sunt cele tipice unei curbe z, impartite in cinci clase valorice).

.         Ipoteza cercetarii (H1): Distributia calificativelor urmeaza legea curbei normale la nivelul esantionului de elevi.

.         Ipoteza de nul (H0): Distributia calificativelor nu urmeaza legea curbei normale in randul elevilor examinati.

Determinarea caracteristicilor deciziei statistice:

.         alegem α=0.05 (in cazul testului χ2 decizia nu poate fi decat unilaterala, deoarece acest test nu poate lua valori negative)

.         gasim valoarea critica pentru χ2=9.48 in tabela pentru distributia χ2, pentru df=(2-1)*(5-1)=4 si α=0.05



Tabelul urmator contine datele de cercetare si algoritmul de calcul:


Decizia statistica:

.         χ2 calculat (18,33) este mai mare decat χ2 critic (9,48)

.         Respingem ipoteza de nul si tragem concluzia ca distributia calificativelor urmeaza forma curbei normale.

Concluzia statistica poate fi interpretata, in acest caz, ca fiind negativa din punctul de vedere al eficientei procesului didactic. In mod normal, daca activitatea de invatare ar fi eficienta, rezultatele elevilor ar trebui sa se distribuie asimetric negativ, adica cu tendinta de grupare a valorilor spre calificativele superioare. Rezultatele procesului de invatare nu se distribuie "normal", nefiind un proces "natural", ci unul in care valorile (calificativele) sunt supuse unei influente sistematice (prin efortul profesorilor si al elevilor insisi) inspre valorile mari.

Facem, inca o data, precizarea ca aceasta forma a testului chi-patrat se aplica atunci cand vrem sa comparam frecvente observate cu frecvente teoretice (asteptate), pe care le cunoastem deja. El este echivalentul testului z pentru proportii pentru distributia binomiala, cu specificatia ca se utilizeaza atunci cand avem mai mult de doua categorii. Testul chi-patrat pentru gradul de corespondenta (goodness of fit) nu are un indice de marime a efectului.

Iata cateva exemple posibile de cercetari ale caror date pot fi analizate cu testul chi-patrat al gradului de corespondenta:

.        Vrem sa stim daca exista o preferinta pentru o anumita categorie de muzica (clasica, populara, pop-rock). In acest caz, daca distributia preferintelor nu ar fi influentata de nici o anumita preferinta (ipoteza de nul) atunci frecventa asteptata (teoretica) pentru fiecare gen muzical ar trebui sa fie echivalenta cu 100/3=33.3% numarul subiectilor. Mai departe, nu ne ramane decat sa testam diferenta dintre cele doua categorii de frecvente (teoretice si observate), conform modelului de calcul de mai sus.

.        Intr-un studiu asupra relatiei dintre atractivitate si preferinta pentru profesori, unui numar de studenti li se prezinta fotografiile preselectate ale unor sase potentiali profesori, ale caror portrete sugereaza grade diferite de atractivitate, si li se cere sa aleaga dintre acestia pe cel pe care ar dori sa il aiba ca profesor. Daca gradul de atractivitate nu are


nici un impact asupra preferintei ca profesor, atunci frecventele cu care sunt alese fotografiile ar trebui sa fie egale (100/6=16.6%).

. Intr-un studiu de marketing, o companie trebuie sa aleaga dintre patru propuneri imagini. Acestea sunt prezentate unui esantion de subiecti si se consemneaza numarul de preferinte exprimate pentru fiecare imagine. Daca toate ar avea acelasi impact, atunci numarul de preferinte ar trebui sa fie egal (25%, pentru fiecare imagine).

Chi-patrat - testul asocierii (independence chi-square)2

Aceasta varianta a testului chi-patrat este mai frecvent utilizata. Ea compara frecventele observate ale unei distributii (variabile) cu frecventele corespondente ale altei distributii (variabile), ambele masurat pe scale de tip categorial, cu scopul de a vedea daca exista o asociere intre cele doua variabile.

Sa presupunem ca avem rezultatele la testul de statistica (masurate pe o scala ordinala si notate, conventional, cu A, B, C, D, E, unde A reprezinta nivelul de performanta cel mai ridicat iar E, cel mai scazut).

Problema cercetarii: Dorim sa aflam daca exista o diferenta semnificativa intre baieti (M) si fete (F) la testul de statistica.

Ipoteza cercetarii: Distributia performantei depinde de genul "masculin" sau "feminin".

Ipoteza de nul: Rezultatele la testul de statistica nu au legatura cu variabila sex.

Determinarea criteriilor de decizie statistica:

.         alegem α=0.05

.         df=(2-1)*(5-1)=4

.         citim valoarea critica pentru χ2 in tabela pentru distributia χ2:

.         χ2critic= 9.49

Datele cercetarii ar putea fi astfel centralizate in urmatorul tabel de corespondenta3:

A 10

10 20

Performanta la test

A

B

C

D

F

Total

Masculin

10

34

140

10

6

200 = 57.14% din total general

Feminin

10

32

97

6

5

150 = 42.86% din total general

Total

20

66

237

16

11

Total general=350

.         Frecventele marginale sunt: 200 (57.14%) pentru "baieti" si 150 (42.86%) pentru "fete"

.         Daca performanta la test nu are nici o legatura cu genul subiectilor, trebuie sa regasim aceste procente pentru fiecare dintre calificativele acordate.

.         Aceasta inseamna ca, teoretic, in celula A/Masculin, ar trebui sa gasim, proportional, tot atatia baieti cati sunt pe intregul lot (57.14%). Adica (20*57.14)/100=11.42, care reprezinta frecventa asteptata pentru celula respectiva din tabelul de corespondenta.

.         La fel, pentru celula A/Feminin ar trebui sa avem 42.86% din totalul pentru "feminin", adica: (20*42.86)/100=8.52.

.         In acelasi mod de calculeaza frecventele observate pentru fiecare celula a tabelului.

2 Cunoscut si sub numele "testul chi-patrat Pearson al asocierii", a fost elaborat de Karl Pearson.

3 Datele din acest exemplu nu se refera la o situatie reala.


Pentru o mai usoara intelegere a mecanismului de calcul, vom rearanja tabelul astfel:

.         Se compara χ2 critic (9.49) cu χ2 calculat (1.85) pentru df = (2-1)(5-1) = 4

.         Valoarea calculata a testului este mai mica decat valoarea critica, ca urmare, acceptam ipoteza de nul. Rezultatele la test nu confirma ipoteza ca rezultatele se distribuie in functie de apartenenta de gen a subiectilor.

Conditii pentru aplicarea testului χ2

.         Cele doua variabile nu trebuie sa se "intersecteze" (sa nu existe subiecti care sa fie inclusi in mai mult de o celula de tabel)

.         Selectie aleatoare a esantioanelor

.         Este recomandabil ca frecventa asteptata sa nu ia valori mai mici de 5 (sau, cel putin, in nu mai mult de 20% din celule).

.         Nici o celula nu trebuie sa aiba frecventa asteptata mai mica de 1.

Pentru situatiile in care frecventele asteptate sunt mai mici decat specificatiile de mai sus, sau atunci cand tabelul de corespondenta dintre variabile are doua linii si doua coloane, se recomanda aplicarea unei corectii la formula de baza. Aceasta se numeste "corectia



Yeates" si consta in scaderea unei constante (0.5) din expresia de la numarator, luata in valoare absoluta:


Utilizarea testului chi-patrat al asocierii

Testul chi-patrat al asocierii se utilizeaza atunci cand dorim sa testam relatia dintre doua variabile, ambele masurate pe scala de tip categorial. Facem precizarea ca variabilele categoriale desi sunt, de regula, de tip nominal, pot fi atat ordinale cat si de interval sau de raport. Ceea ce caracterizeaza o variabila categoriala nu este atat scala de masurare, cat faptul ca primeste putine valori, care impart distributia in categorii de valori. De exemplu, intr-un studiu cu privire la relatia dintre gravitatea accidentelor de circulatie ("fara raniti", "cu raniti usor", "cu raniti grav", "cu morti") si puterea motoarelor (1400 cm3, 1600 cm3, 2000 cm3, 2500 cm3, 3000 cm3), ambele variabile sunt de tip categorial, dar prima este pe scala nominala, iar a doua pe scala cantitativa.

Testul chi-patrat al asocierii (independentei) poate fi vazut ca un veritabil test de corelatie pentru date categoriale. De asemenea, poate fi folosit in locul testului t sau ANOVA, daca nu sunt indeplinite conditiile pentru variabila dependenta. Intr-un asemenea caz, variabila dependenta cantitativa se transforma, prin gruparea in frecvente, in variabila de tip categorial. Aceasta optiune se va alege numai daca ne aflam in fata unei flagrante violari a conditiei de normalitate, deoarece testele parametrice au o putere mai mica decat cele neparametrice. La fel ca si in cazul altor teste statistice, nu se vor putea trage concluzii de tip cauzal decat numai daca variabilele sunt masurate in contextul unui experiment psihologic.

Marimea efectului pentru testul chi patrat al asocierii

Coeficientul φ (fi)

Atunci cand utilizam testul pentru asocierea variabilelor, valoarea χ2 certifica faptul ca cele doua variabile sunt relationate. Dar marimea lui χ2 nu ne spune nimic cu privire la intensitatea relatiei dintre variabile. De fapt, marimea lui χ2 este in functie de N. Daca multiplicam frecventele celulelor cu o constanta, valoarea lui χ2 se multiplica si ea cu acea constanta, singura consecinta fiind aceea ca se diminueaza probabilitatea ca valoarea respectiva sa fie obtinuta din intamplare. Pentru completarea interpretarii valorii χ2 este necesar un indicator suplimentar, care sa ne spuna ceva si despre intensitatea legaturii, nu doar despre semnificatia acesteia. Un astfel de indicator este coeficientul φ (fi), care se calculeaza pentru asocierea variabilelor care prezinta fiecare doar doua valori posibile (tabele de contingenta 2x2).

Formula dupa care se calculeaza este:

Coeficientul φ Cramer

Coeficientul φ este adecvat doar pentru tabelele de contingenta de tip 2x2, cand ambele variabile sunt dihotomice. O usoara modificare a acestuia, denumita φ Cramer, il face utilizabil pentru intensitatea asocierii dintre variabile avand un numar diferit de categorii.



Indicele φ Cramer se calculeaza dupa formula:


unde:

.       N este volumul esantionului

.       L este valoarea cea mai mica dintre numarul liniilor sau al coloanelor tabelului de corespondenta (de exemplu, pentru un tabel de corespondenta 4x3 - patru linii si patru coloane - L are valoarea 3-1=2).

In cazul coeficientilor φ, daca frecventele fiecarei celule din tabelul de corespondenta sunt multiplicate cu o constanta, atat χ2 cat si N cresc concomitent, iar valoarea coeficientului φ ramane aceeasi. Coeficientul φ se modifica numai daca se modifica si raporturile dintre proportii, ceea ce inseamna ca marimea lui nu este influentata de N. El reprezinta un indicator numeric al intensitatii relatiei si poate lua valori intre zero - absenta relatiei si unu - relatie perfecta intre cele doua variabile. De exemplu, pentru testul chi-patrat al asocierii dintre gen si performanta la testul de statistica (care a rezultat nesemnificativ), al carui tabel de corespondenta este de forma 2x5, valoarea coeficientului φc este:

Interpretarea coeficientilor φ

Valoarea coeficientului φ se asociaza interpretarii testului chi-patrat, atunci cand acesta este semnificativ, pentru a adauga o informatie suplimentara cu privire la intensitatea relatiei. Prin ridicarea la patrat a expresiei de calcul, coeficientul φ2 poate fi interpretat procentual, la fel ca si coeficientul de determinare (r2), indicand proportia variatiei unei variabile determinata de variatia celeilalte variabile. In cazul nostru, numai 0.4% (0.072*100) din variatia calificativelor la testul de statistica este explicata prin diferenta de gen (masculin/feminin), ceea ce, in conformitate cu decizia statistica, s-a dovedit a fi nesemnificativ.

In conformitate cu recomandarile lui Cohen, cit. de Kotrlik si Williams (2003), valorile lui φ vor fi interpretate dupa cum urmeaza:

φ (Cohen)

0.10 0.25 0.40

efect mic

efect mediu

efect mare

Raportarea rezultatului

In cazul testului χ2 elementele care vor fi incluse in raport sunt urmatoarele: gradele de libertate, valoare testului, nivelul p si coeficientul φ sau Cramer φ. In varianta narativa, pentru exemplul de mai sus, prezentarea rezultatelor ar putea avea urmatoarea forma:

"Rezultatele testului de statistica, evaluate pe cinci clase valorice (A,B,C,D,E) au fost comparate pe sexe. Testul χ2 pentru asocierea variabilelor indica faptul ca rezultatele nu difera semnificativ in functie de gen, χ2(4) = 1.85, p >0 .05, cu un coeficient φ=0.07, care indica o asociere slaba".

In cazul in care testul ar fi fost semnificativ, raportarea rezultatelor ar fi trebuit sa contina si referinte cu privire la procentele consemnate in celulele tabelului de corespondenta, astfel incat sa fie scoase in evidenta diferentele releavnte dintre categoriile comparate.


Testul exact Fisher

Asa cum am precizat, testul chi-patrat este calculat pe baza unei formule ale carei rezultate nu urmeaza cu maxima precizie distributia χ2. Daca in cele mai multe situatii acest lucru nu reprezinta un neajuns notabil, sunt si cazuri in care rezultatele pot fi alterate suficient de mult pentru a putea fi luate in considerare:

.         atunci cand volumul esantionului este redus (N<20);

.         atunci cand valorile fe pentru una sau mai multe dintre celulele tabelei de corespondenta sunt foarte mici.

In aceste situatii, precum si atunci cand tabelul de corespondenta este compus din doua linii si doua coloane, este recomandabila utilizarea testului exact Fisher. El se bazeaza pe calcularea tuturor tabelelor posibile ce pot fi construite pentru frecventele marginale. Deoarece necesita un mare volum de calcule, testul exact Fisher se efectueaza numai cu ajutorul programelor computerizate.

Rezumat

.         Distributia binomiala deriva din serii de evenimente independente dihotomice. Cele doua posibilitati ale fiecarui eveniment au probabilitatile P si Q, a caror suma este 1 (de unde Q=1-P).

.         Atunci cand P=Q=0.5, distributia binomiala este simetrica. Pe masura ce numarul evenimentelor (N) creste, distributia binomiala se apropie de forma normala. Chiar si atunci cand P≠Q distributia binomiala se apropie de forma normala odata cu cresterea lui N.

.         Atunci cand N creste la infinit, distributia binomiala devine normala, avand

media=N*P si abaterea standard= Ca urmare, probabilitatea ca un

anume eveniment sa cada in categoria P poate fi aproximata prin calcularea unui scor z si evaluarea ariei corespunzatoare de sub curba normala.

.         Daca P=0.5, distributia normala devine o aproximare buna pentru distributia normala incepand cu N=25.

.         Testul semnului poate fi utilizat in locul testului t pentru esantioane dependente atunci cand nivelul diferentei dintre cele doua determinari nu poate fi evaluat, ci numai directia diferentei. Dat fiind faptul ca fiecare diferenta poate fi intr-una din categorii (+ sau -) distributia binomiala poate fi utilizata pentru a estima in ce masura dezechilibrul intre cele doua categorii este posibil sa apara din intamplare (prin raportare la distributia normala).

.         Atunci cand N nu este foarte mare, utilizarea distributiei normale pentru aproximarea distributiei binomiale introduce o eroare sistematica care poate fi compensata prin corectia de continuitate, extragand 0.5 din valoare absoluta a diferentei de la numaratorul scorului z.

.         Daca evenimentele probabilistice pot avea mai mult decat doua posibilitati (de ex., adevarat-fals), probabilitatea cu care fiecare eveniment cade intr-una din categoriile posibile se supune distributiei multinomiale.

.         Din cauza complexitatii procesului de evaluare a probabilitatilor multinomiale, este utilizata o estimare a acestora prin distributia chi-patrat. Numarul gradelor de libertate pentru distributia multinomiala este dat de numarul categoriilor minus 1.

.         Testul chi-patrat are doua variante: (1) Testul chi-patrat al asocierii testeaza diferenta dintre valorile a doua variabile categoriale (nominale sau ordinale). (2) Testul chi patrat al corespondentei (goodness of fit) masoara diferenta ("potrivirea")dintre valorile unei variable categoriale si probabilitatile teoretice dinainte cunoscute ale acestor valori.

.         Diferentele mari dintre frecventele observate si cele asteptate produc valori ridicate ale testului chi-patrat, care cad in zona dreapta (pozitiva) a distributiei de nul si


conduc la respingere a ipotezei de nul. Diferentele mici, produc valori ale testulu chi-patrat apropiate de zero, conducand la acceptarea ipotezei de nul. . Atunci cand fiecare dintre cele doua variabile au doar doua categorii, situatie in care frecventele asteptate sunt prea mici pentru a justifica o estimare chi-patrat, se utilizeaza testul exact Fischer.

EXERCITII

1.  Pentru a verifica ipoteza ca exista o legatura intre numarul de internari psihiatrice si anotimp, au fost numarate internarile pentru fiecare anotimp, obtinandu-se urmatoarele valori: primavara=30; vara=40; toamna=20; iarna=10. Testati ipoteza ca internarile psihiatrice sunt inegal distribuite in functie de anotimp (pentru alfa=0.05).

2.  Intr-un serviciu de psihologie clinica rezultatele mai multor psihologi in terapia unor pacienti cu tulburari severe au fost evaluate astfel: Ameliorare, Fara modificari, Inrautatire. rezultatele studiului se afla in tabelul alaturat:

psih. A

psih. B

psih. C

psih. D

psih. E

Imbunatatire

15

11

16

13

10

Nemodificat

5

3

0

4

6

Inrautatire

0

6

4

3

4

.         Enuntati ipoteza cercetarii si ipoteza de nul

.         Gasiti χ2 critic pentru α=0.01

.         Testati ipoteza si prezentati rezultatul in format standard

.         Calculati si interpretati coeficientul φc

Nota: Ignorati faptul ca doua din celulele tabelului au valoarea zero!

11/13


Intrebari pregatitoare pentru evaluarea partiala nr. 3 (15-17 ian.)

1.      Care este coeficientul de determinare, daca r=-0.80?

2.      In cazul testului t pentru esantioane dependente, pe ce scara se exprima valorile variabilei independente?

3.      Care este numele celui care a introdus testul de corelatie pentru date parametrice?

4.      Care este valoarea lui r pentru o corelatie perfecta?

5.      Care dintre urmatorii coeficienti de corelatie este semnificativ: r=-0.70 (p=0.05) sau r=+0.70 (p=0.05)?

6.      In ce caz o valoare a lui r apropiata de 0 (zero), indica, totusi, existenta unei corelatii intre variabile?

7.      Distributia binomiala este

8.      Care este probabilitatea lui P pentru un eveniment dihotomic aleator (DA/NU)?

9.      Care este echivalentul parametric al testului z pentru proportii?

10.  In cazul testului chi-patrat, frecventa asteptata se refera la

11.  Testul chi-patrat goodness-of-fit se utilizeaza pentru a

12.  Care sunt caracteristicile distributiei chi-patrat?

12/13




Tabelul χ2 (partiala, pana la 30 de grade de libertate)4

dfaria

.100

.050

.025

.010

.005

1

2.70554

3.84146

5.02389

6.63490

7.87944

2

4.60517

5.99146

7.37776

9.21034

10.59663

3

6.25139

7.81473

9.34840

11.34487

12.83816

4

7.77944

9.48773

11.14329

13.27670

14.86026

5

9.23636

11.07050

12.83250

15.08627

16.74960

6

10.64464

12.59159

14.44938

16.81189

18.54758

7

12.01704

14.06714

16.01276

18.47531

20.27774

8

13.36157

15.50731

17.53455

20.09024

21.95495

9

14.68366

16.91898

19.02277

21.66599

23.58935

10

15.98718

18.30704

20.48318

23.20925

25.18818

11

17.27501

19.67514

21.92005

24.72497

26.75685

12

18.54935

21.02607

23.33666

26.21697

28.29952

13

19.81193

22.36203

24.73560

27.68825

29.81947

14

21.06414

23.68479

26.11895

29.14124

31.31935

15

22.30713

24.99579

27.48839

30.57791

32.80132

16

23.54183

26.29623

28.84535

31.99993

34.26719

17

24.76904

27.58711

30.19101

33.40866

35.71847

18

25.98942

28.86930

31.52638

34.80531

37.15645

19

27.20357

30.14353

32.85233

36.19087

38.58226

20

28.41198

31.41043

34.16961

37.56623

39.99685

21

29.61509

32.67057

35.47888

38.93217

41.40106

22

30.81328

33.92444

36.78071

40.28936

42.79565

23

32.00690

35.17246

38.07563

41.63840

44.18128

24

33.19624

36.41503

39.36408

42.97982

45.55851

25

34.38159

37.65248

40.64647

44.31410

46.92789

26

35.56317

38.88514

41.92317

45.64168

48.28988

27

36.74122

40.11327

43.19451

46.96294

49.64492

28

37.91592

41.33714

44.46079

48.27824

50.99338

29

39.08747

42.55697

45.72229

49.58788

52.33562

30

40.25602

43.77297

46.97924

50.89218

53.67196




Politica de confidentialitate | Termeni si conditii de utilizare



DISTRIBUIE DOCUMENTUL

Comentarii


Vizualizari: 5872
Importanta: rank

Comenteaza documentul:

Te rugam sa te autentifici sau sa iti faci cont pentru a putea comenta

Creaza cont nou

Termeni si conditii de utilizare | Contact
© SCRIGROUP 2024 . All rights reserved