CATEGORII DOCUMENTE
Afaceri Calculatoare Casa masina Didactica pedagogie Diverse Educatie Finante Geografie Istorie & politica Legislatie Limba Management Sanatate Tehnologie

Animale	Arta cultura	Divertisment	Film	Jurnalism	Muzica
Pescuit	Pictura	Versuri

Distributia multinomiala - Testele chi-patrat

diverse

+ Font mai mare | - Font mai mic

DOCUMENTE SIMILARE

SUBSTANTE STINGATOARE - Apa, Spuma, Pulberi

PROGRAM: PROTECTIE ANTIINCENDIU NIVEL AVANSAT

Filosofie analitica. De la jocurile de limbaj la teoria actelor de limbaj

STATUSURI DE SUPARARE PT MESS

CURS PRACTIC DE LIMBA FRANCEZA ANUL II

Iisus Hristos in Islamism

Proiectare De Produs

Test grila - navigatie

MODELAREA DATELOR EXPERIMENTALE

DESPRE IUBIRE

Distributia multinomiala - Testele chi-patrat

Distributia multinomiala

Evenimentele de tip binomial se caracterizeaza prin caracterul dihotomic, putand lua doar doua valori. Exista insa si evenimente care pot lua mai mult de doua valori posibile (trei sau mai multe). De exemplu, daca presupunem ca exista doar trei tipuri de liceu, atunci absolventii de liceu, ar putea face parte dintr-una din urmatoarele categorii: "umanist", "real", "artistic". Daca raportam frecventa de aparitie a fiecarei categorii (numarul subiectilor care au absolvit un anumit tip de liceu) la totalul subiectilor, probabilitatile aferente fiecarui tip de liceu sunt, respectiv, P, Q si R. Intr-o asemenea situatie P+Q+R=1. Pe aceasta baza, putem scrie probabilitatile pentru fiecare "eveniment" dupa modelul: Q=1-P-R.

Sa luam in considerare situatia in care toate liceele ar avea acelasi numar de absolventi. In acest caz, P=Q=R=1/3=0.33 (alegerea unor ponderi diferite, asa cum este si cazul in realitate, nu ar schimba datele rationamentului care urmeaza, dar l-ar face mai putin evident). Mai departe, sa ne imaginam ca analizam tipul de liceu absolvit de studentii unei facultati de psihologie si constatam ca din 100 de studenti 60 sunt absolventi de liceu "umanist", 30 au absolvit un liceu cu profil "artistic" si 10, unul cu profil "real". Ponderea studentilor la facultatea respectiva este, evident, diferita de ponderea din cadrul populatiei de absolventi. Pe baza acestor date, se poate afirma ca absolventii de profil "umanist" si "artistic" prefera psihologia mai mult decat care au absolvit un profil "real"? Sau, intr-o formulare mai larga, se poate afirma ca exista o relatie intre tipul de liceu absolvit si preferinta pentru psihologie ca specialitate universitara?

Inainte de a raspunde la aceasta intrebare, sa analizam putin datele sugerate de exemplul de mai sus. Asa cum am spus, numarul studentilor la facultatea de psihologie este, in functie de tipul de liceu absolvit, de 60, 30, respectiv, 10. Aceste valori se numesc "frecvente observate" sau "frecvente calculate" (notate cu f_o de la Observed), fiind rezultatul masurarii in contextul cercetarii. Daca preferinta pentru facultatea de psihologie nu ar fi in legatura cu liceul absolvit (ipoteza de nul), atunci cercetarea ar trebui sa consemneze un numar egal de studenti provenind din fiecare tip de liceu. In exemplul dat, acest numar ar trebui sa fie, pentru fiecare tip de liceu 100/3=33.3, care se numeste "frecventa teoretica" sau "frecventa asteptata" (notata cu f_e de la Expected). Este usor de intuit faptul ca, cu cat frecventele calculate (reale) sunt mai indepartate de cele asteptate (teoretice), cu atat ele se apropie de situatia de a fi "semnificativ diferite" de acestea. Mai departe, nu ne ramane decat sa gasim o procedura pentru calcularea distantei dintre cele doua tipuri de frecvente si un model de distributie pentru rezultatul acestui calcul, in raport cu care sa putem lua o decizie cu privire la ipoteza de nul.

Datele din exemplul dat nu mai pot fi analizate prin prisma distributiei binomiale deoarece implica mai mult decat doua "evenimente" posibile. De aceea, distributia acestora se numeste "distributie multinomiala". Desigur, procedura de calcul pentru acest caz ar putea urma modelul celei binomiale dar, din cauza complexitatii acestei solutii, s-a apelat la o solutie mai simpla. Aceasta este fundamentata pe o aproximare derivata din formula binomiala a lui z, care este pur si simplu ridicata la patrat, devenind:

Daca inainte de ridicarea la patrat z urmeaza o distributie normala, dupa ridicarea la patrat z urmeaza un alt tip de distributie, numita "chi-patrat", simbolizata cu litera greceasca χ, cu indicele de ridicare la patrat (χ²). Valorile distributiei χ² se calculeaza ca raport dintre frecventele observate si cele teoretice, iar caracteristicile ei esentiale sunt urmatoarele;

. este, la fel ca distributia normala, o familie de distributii;

. are forma asimetrica;

. are originea in zero (din cauza ridicarii la patrat);

. are o forma dependenta de numarul de grade de libertate.

Imaginea de mai jos prezinta mai multe distributii chi-patrat, pentru diferite grade de libertate (vom vedea mai tarziu cum se calculeaza acestea).

Curbele distributiilor chi-patrat pentru 1, 2, 4, 6 si 10 grade de libertate

Tabelul de corespondenta (contingenta) pentru date nominale

Inainte de a trece la testul propriu-zis, este util sa aruncam o privirea asupra modului de organizare a datelor pentru o situatie similara exemplului de mai sus. In acest scop, putem sa ne permitem o largire a cadrului de investigare. Sa presupunem ca avem cele trei categorii de liceu si ne intereseaza distribuirea lor, nu in legatura cu o singura facultate (cea de psihologie), ci in legatura cu trei tipuri de facultati: "umaniste", "artistice" si "tehnice".

Daca realizam un cadru de reprezentare sintetic al valorilor celor doua variabile, obtinem ceea ce se numeste un tabel de corespondenta. Iata cum ar arata un astfel de tabel, pentru un set de date ipotetice:

	Liceu umanist	Liceu real	Liceu artistic	Total pe linii
Fac. Umaniste	45	20	30	95
Fac. Tehnice	14	60	12	86
Fac. Artistice	20	13	50	83
Total pe coloane	79	93	92	264

Acesta este un tabel de corespondenta pentru doua variabile nominale, fiecare avand cate trei valori distincte (categorii)¹. Valorile din celule reprezinta numarul de cazuri (frecventele observate) care corespund fiecarei combinatii dintre categoriile celor doua variabile. "Totalul pe linii" exprima numarul de studenti din fiecare facultate, consemnati in

¹ In mod similar, se pot crea tabele de corespondenta pentru variabile categoriale avand, fiecare, un numar diferit de valori (categorii).

cercetare, indiferent de tipul de liceu absolvit, "totalul pe coloane", exprima numarul de absolventi din fiecare tip de liceu, indiferent de facultatea la care sunt inscrisi, iar la intersectia celor doua totaluri regasim totalul general al subiectilor cercetarii (N=264).

Fundamentarea testului statistic

Avand un numar de 95 de studenti in "facultati umaniste", aceasta inseamna ca ei reprezinta 36% din totalul subiectilor cercetarii (95/264*100=36). Acest procent indica se refera la absolventii care au ales o facultate de tip umanist, indiferent de liceul absolvit. In mod similar, calculam procentele corespunzatoare celorlalte tipuri de facultati. Valorile astfel calculate, pentru fiecare linie a tabelului, se numesc frecvente marginale.

Daca alegerea facultatii nu ar avea nici o legatura cu tipul de liceu absolvit atunci, in mod normal, ar trebui sa regasim, pentru fiecare tip de liceu, acelasi procent care exprima ponderea studentilor din fiecare facultate in totalul subiectilor cercetati. Avand procentele studentilor din fiecare facultate si numarul absolventilor din fiecare tip de liceu, putem calcula frecventele "teoretice" (asteptate) pentru fiecare celula a tabelului. De exemplu, dintre cei 79 de absolventi de liceu umanist consemnati de cercetare, 36% ar trebui sa se afle in facultati umaniste, ceea ce inseamna: (79*36)/100=28.4. In mod similar, ar trebui sa avem 32.5% (25.6) in facultati stiintifice si 31.5% (24.8) in facultati artistice. Acelasi rationament se aplica mai departe si celorlalte tipuri de liceu, cu utilizarea procentului corespunzator fiecarei facultati. Precizam ca frecventele teoretice (asteptate) vor fi aceleasi, in fiecare celula, chiar daca vor fi calculate pe baza frecventelor marginale de pe coloane.

	Liceu umanist	Liceu real	Liceu artistic	Total pe linie	% pe linii
Fac. Umaniste	45 (28.4)	20 (33.4)	30 (33.1)	95	(95/264)* 100=36%
Fac. Tehnice	14 (25.6)	60 (30.2)	12 (29.9)	86	(86/264)* 100=32,5%
Fac. Artistice	20 (24.8)	13 (29.2)	50 (28.9)	83	(83/264)* 100=31.5%
Total pe coloana	79	93	92	264

Asa cum constatam, intre frecventele observate si cele asteptate sunt diferente. Suma frecventelor asteptate (teoretice) este egala cu suma frecventelor observate (poate rezulta o anumita diferenta intre totaluri, ca urmare a aproximarii zecimalelor).

In final, problema cercetatorului este aceea de a stabili daca intre frecventele observate si cele teoretice (calculate) este o diferenta care sa justifice aprecierea ca intre cele doua variabile exista sau nu o legatura. Datele de acest gen nu mai pot fi analizate prin prisma distributiei binomiale, deoarece implica mai mult decat doua "evenimente" posibile. De aceea, distributia acestora se numeste "distributie multinomiala". Desigur procedura de calcul pentru acest caz ar putea urma modelul celei binomiale dar, din cauza complexitatii ei, s-a apelat la o solutie mai simpla. Aceasta solutie este fundamentata pe o aproximare derivata din formula binomiala a lui z, care este pur si simplu ridicata la patrat, devenind:

z² (X-N*P)²

Daca inainte de ridicarea la patrat z urmeaza o distributie normala, dupa ridicarea la patrat z urmeaza un alt tip de distributie, numita "chi-patrat", simbolizata cu litera greceasca χ cu indicele de ridicare la patrat (χ²). Fara a intra in amanunte, vom preciza ca distributia χ²prezinta urmatoarele caracteristici:

. este, la fel ca si distributia normala, o familie de distributii;

. are forma asimetrica;

. are originea in zero (din cauza ridicarii la patrat);

. are o forma dependenta de numarul de grade de libertate.

La fel ca si distributiile t si F, distributia χ² este dependenta de numarul gradelor de libertate. Acestea se calculeaza pe baza tabelului de corespondenta dintre cele doua variabile, astfel:

df=(numar coloane-1)*(numar linii-1)

Formula de calcul pentru testul chi-patrat, derivata din formula 4.8, este :

unde f_O este frecventa observata, iar f_E, frecventa asteptata.

Decizia pentru testul chi-patrat se bazeaza pe compararea valorii calculate cu o valoare critica, corespunzatoare nivelului alfa ales (0.05 sau, optional, mai mic). Valorile critice pentru distributia chi-patrat se gasesc intr-o tabela speciala (vezi anexa). Daca valoarea calculata a lui χ² este egala sau mai mare decat valoarea critica pentru nivelul ales al lui alfa, atunci ipoteza de nul poate fi respinsa, iar ipoteza cercetarii confirmata.

Pe aceasta structura formala se bazeaza doua variante distincte ale testului chi-patrat: testul corespondentei (Goodness of Fit) si testul asocierii. Primul, compara frecventele observate ale valorilor unei singure variabile cu frecventele asteptate pentru acele valori. Al doilea, compara frecventele valorilor observate pentru doua variabile cu frecventele lor asteptate, cu scopul de a testa relatia (asocierea) dintre cele doua variabile.

Chi-patrat pentru gradul de corespondenta (Goodness of Fit)

Aceasta varianta a testului chi-patrat compara frecventele observate ale unei distributii cu frecventele teoretice (asteptate) ale acelei variabile. De exemplu, daca avem frecventele unei variabile putem afla daca aceasta se distribuie dupa curba normala (z), prin compararea cu frecventele cunoscute ale acestei distributii (aria de sub curba).

Sa presupunem ca a fost aplicat un test de cunostinte unui esantion de 200 de elevi, care a fost evaluat cu calificative, astfel: F.Slab, Slab, Mediu, Bun, F.Bun.

Problema cercetarii: Calificativele obtinute se distribuie normal la nivelul clasei?

Populatia 1: Calificativele obtinute de elevi.

Populatia 2: Calificativele, asa cum s-ar distribui pe o curba normala: FS=2.5%,

B=14%, M=67%, B=14% si FB=2.5% (procentele sunt cele tipice unei curbe z, impartite in cinci clase valorice).

. Ipoteza cercetarii (H₁): Distributia calificativelor urmeaza legea curbei normale la nivelul esantionului de elevi.

. Ipoteza de nul (H₀): Distributia calificativelor nu urmeaza legea curbei normale in randul elevilor examinati.

Determinarea caracteristicilor deciziei statistice:

. alegem α=0.05 (in cazul testului χ² decizia nu poate fi decat unilaterala, deoarece acest test nu poate lua valori negative)

. gasim valoarea critica pentru χ²=9.48 in tabela pentru distributia χ², pentru df=(2-1)*(5-1)=4 si α=0.05

Tabelul urmator contine datele de cercetare si algoritmul de calcul:

Decizia statistica:

. χ² calculat (18,33) este mai mare decat χ² critic (9,48)

. Respingem ipoteza de nul si tragem concluzia ca distributia calificativelor urmeaza forma curbei normale.

Concluzia statistica poate fi interpretata, in acest caz, ca fiind negativa din punctul de vedere al eficientei procesului didactic. In mod normal, daca activitatea de invatare ar fi eficienta, rezultatele elevilor ar trebui sa se distribuie asimetric negativ, adica cu tendinta de grupare a valorilor spre calificativele superioare. Rezultatele procesului de invatare nu se distribuie "normal", nefiind un proces "natural", ci unul in care valorile (calificativele) sunt supuse unei influente sistematice (prin efortul profesorilor si al elevilor insisi) inspre valorile mari.

Facem, inca o data, precizarea ca aceasta forma a testului chi-patrat se aplica atunci cand vrem sa comparam frecvente observate cu frecvente teoretice (asteptate), pe care le cunoastem deja. El este echivalentul testului z pentru proportii pentru distributia binomiala, cu specificatia ca se utilizeaza atunci cand avem mai mult de doua categorii. Testul chi-patrat pentru gradul de corespondenta (goodness of fit) nu are un indice de marime a efectului.

Iata cateva exemple posibile de cercetari ale caror date pot fi analizate cu testul chi-patrat al gradului de corespondenta:

. Vrem sa stim daca exista o preferinta pentru o anumita categorie de muzica (clasica, populara, pop-rock). In acest caz, daca distributia preferintelor nu ar fi influentata de nici o anumita preferinta (ipoteza de nul) atunci frecventa asteptata (teoretica) pentru fiecare gen muzical ar trebui sa fie echivalenta cu 100/3=33.3% numarul subiectilor. Mai departe, nu ne ramane decat sa testam diferenta dintre cele doua categorii de frecvente (teoretice si observate), conform modelului de calcul de mai sus.

. Intr-un studiu asupra relatiei dintre atractivitate si preferinta pentru profesori, unui numar de studenti li se prezinta fotografiile preselectate ale unor sase potentiali profesori, ale caror portrete sugereaza grade diferite de atractivitate, si li se cere sa aleaga dintre acestia pe cel pe care ar dori sa il aiba ca profesor. Daca gradul de atractivitate nu are

nici un impact asupra preferintei ca profesor, atunci frecventele cu care sunt alese fotografiile ar trebui sa fie egale (100/6=16.6%).

. Intr-un studiu de marketing, o companie trebuie sa aleaga dintre patru propuneri imagini. Acestea sunt prezentate unui esantion de subiecti si se consemneaza numarul de preferinte exprimate pentru fiecare imagine. Daca toate ar avea acelasi impact, atunci numarul de preferinte ar trebui sa fie egal (25%, pentru fiecare imagine).

Chi-patrat - testul asocierii (independence chi-square)²

Aceasta varianta a testului chi-patrat este mai frecvent utilizata. Ea compara frecventele observate ale unei distributii (variabile) cu frecventele corespondente ale altei distributii (variabile), ambele masurat pe scale de tip categorial, cu scopul de a vedea daca exista o asociere intre cele doua variabile.

Sa presupunem ca avem rezultatele la testul de statistica (masurate pe o scala ordinala si notate, conventional, cu A, B, C, D, E, unde A reprezinta nivelul de performanta cel mai ridicat iar E, cel mai scazut).

Problema cercetarii: Dorim sa aflam daca exista o diferenta semnificativa intre baieti (M) si fete (F) la testul de statistica.

Ipoteza cercetarii: Distributia performantei depinde de genul "masculin" sau "feminin".

Ipoteza de nul: Rezultatele la testul de statistica nu au legatura cu variabila sex.

Determinarea criteriilor de decizie statistica:

. alegem α=0.05

. df=(2-1)*(5-1)=4

. citim valoarea critica pentru χ² in tabela pentru distributia χ²:

. χ²_critic= 9.49

Datele cercetarii ar putea fi astfel centralizate in urmatorul tabel de corespondenta³:

	A 10 10 20 Performanta la test
	A	B	C	D	F	Total
Masculin	10	34	140	10	6	200 = 57.14% din total general
Feminin	10	32	97	6	5	150 = 42.86% din total general
Total	20	66	237	16	11	Total general=350

. Frecventele marginale sunt: 200 (57.14%) pentru "baieti" si 150 (42.86%) pentru "fete"

. Daca performanta la test nu are nici o legatura cu genul subiectilor, trebuie sa regasim aceste procente pentru fiecare dintre calificativele acordate.

. Aceasta inseamna ca, teoretic, in celula A/Masculin, ar trebui sa gasim, proportional, tot atatia baieti cati sunt pe intregul lot (57.14%). Adica (20*57.14)/100=11.42, care reprezinta frecventa asteptata pentru celula respectiva din tabelul de corespondenta.

. La fel, pentru celula A/Feminin ar trebui sa avem 42.86% din totalul pentru "feminin", adica: (20*42.86)/100=8.52.

. In acelasi mod de calculeaza frecventele observate pentru fiecare celula a tabelului.

² Cunoscut si sub numele "testul chi-patrat Pearson al asocierii", a fost elaborat de Karl Pearson.

³ Datele din acest exemplu nu se refera la o situatie reala.

Pentru o mai usoara intelegere a mecanismului de calcul, vom rearanja tabelul astfel:

. Se compara χ² critic (9.49) cu χ² calculat (1.85) pentru df = (2-1)(5-1) = 4

. Valoarea calculata a testului este mai mica decat valoarea critica, ca urmare, acceptam ipoteza de nul. Rezultatele la test nu confirma ipoteza ca rezultatele se distribuie in functie de apartenenta de gen a subiectilor.

Conditii pentru aplicarea testului χ²

. Cele doua variabile nu trebuie sa se "intersecteze" (sa nu existe subiecti care sa fie inclusi in mai mult de o celula de tabel)

. Selectie aleatoare a esantioanelor

. Este recomandabil ca frecventa asteptata sa nu ia valori mai mici de 5 (sau, cel putin, in nu mai mult de 20% din celule).

. Nici o celula nu trebuie sa aiba frecventa asteptata mai mica de 1.

Pentru situatiile in care frecventele asteptate sunt mai mici decat specificatiile de mai sus, sau atunci cand tabelul de corespondenta dintre variabile are doua linii si doua coloane, se recomanda aplicarea unei corectii la formula de baza. Aceasta se numeste "corectia

Yeates" si consta in scaderea unei constante (0.5) din expresia de la numarator, luata in valoare absoluta:

Utilizarea testului chi-patrat al asocierii

Testul chi-patrat al asocierii se utilizeaza atunci cand dorim sa testam relatia dintre doua variabile, ambele masurate pe scala de tip categorial. Facem precizarea ca variabilele categoriale desi sunt, de regula, de tip nominal, pot fi atat ordinale cat si de interval sau de raport. Ceea ce caracterizeaza o variabila categoriala nu este atat scala de masurare, cat faptul ca primeste putine valori, care impart distributia in categorii de valori. De exemplu, intr-un studiu cu privire la relatia dintre gravitatea accidentelor de circulatie ("fara raniti", "cu raniti usor", "cu raniti grav", "cu morti") si puterea motoarelor (1400 cm³, 1600 cm³, 2000 cm³, 2500 cm³, 3000 cm³), ambele variabile sunt de tip categorial, dar prima este pe scala nominala, iar a doua pe scala cantitativa.

Testul chi-patrat al asocierii (independentei) poate fi vazut ca un veritabil test de corelatie pentru date categoriale. De asemenea, poate fi folosit in locul testului t sau ANOVA, daca nu sunt indeplinite conditiile pentru variabila dependenta. Intr-un asemenea caz, variabila dependenta cantitativa se transforma, prin gruparea in frecvente, in variabila de tip categorial. Aceasta optiune se va alege numai daca ne aflam in fata unei flagrante violari a conditiei de normalitate, deoarece testele parametrice au o putere mai mica decat cele neparametrice. La fel ca si in cazul altor teste statistice, nu se vor putea trage concluzii de tip cauzal decat numai daca variabilele sunt masurate in contextul unui experiment psihologic.

Marimea efectului pentru testul chi patrat al asocierii

Coeficientul φ (fi)

Atunci cand utilizam testul pentru asocierea variabilelor, valoarea χ² certifica faptul ca cele doua variabile sunt relationate. Dar marimea lui χ² nu ne spune nimic cu privire la intensitatea relatiei dintre variabile. De fapt, marimea lui χ² este in functie de N. Daca multiplicam frecventele celulelor cu o constanta, valoarea lui χ² se multiplica si ea cu acea constanta, singura consecinta fiind aceea ca se diminueaza probabilitatea ca valoarea respectiva sa fie obtinuta din intamplare. Pentru completarea interpretarii valorii χ² este necesar un indicator suplimentar, care sa ne spuna ceva si despre intensitatea legaturii, nu doar despre semnificatia acesteia. Un astfel de indicator este coeficientul φ (fi), care se calculeaza pentru asocierea variabilelor care prezinta fiecare doar doua valori posibile (tabele de contingenta 2x2).

Formula dupa care se calculeaza este:

Coeficientul φ Cramer

Coeficientul φ este adecvat doar pentru tabelele de contingenta de tip 2x2, cand ambele variabile sunt dihotomice. O usoara modificare a acestuia, denumita φ Cramer, il face utilizabil pentru intensitatea asocierii dintre variabile avand un numar diferit de categorii.

Indicele φ Cramer se calculeaza dupa formula:

unde:

. N este volumul esantionului

. L este valoarea cea mai mica dintre numarul liniilor sau al coloanelor tabelului de corespondenta (de exemplu, pentru un tabel de corespondenta 4x3 - patru linii si patru coloane - L are valoarea 3-1=2).

In cazul coeficientilor φ, daca frecventele fiecarei celule din tabelul de corespondenta sunt multiplicate cu o constanta, atat χ² cat si N cresc concomitent, iar valoarea coeficientului φ ramane aceeasi. Coeficientul φ se modifica numai daca se modifica si raporturile dintre proportii, ceea ce inseamna ca marimea lui nu este influentata de N. El reprezinta un indicator numeric al intensitatii relatiei si poate lua valori intre zero - absenta relatiei si unu - relatie perfecta intre cele doua variabile. De exemplu, pentru testul chi-patrat al asocierii dintre gen si performanta la testul de statistica (care a rezultat nesemnificativ), al carui tabel de corespondenta este de forma 2x5, valoarea coeficientului φ_c este:

Interpretarea coeficientilor φ

Valoarea coeficientului φ se asociaza interpretarii testului chi-patrat, atunci cand acesta este semnificativ, pentru a adauga o informatie suplimentara cu privire la intensitatea relatiei. Prin ridicarea la patrat a expresiei de calcul, coeficientul φ² poate fi interpretat procentual, la fel ca si coeficientul de determinare (r²), indicand proportia variatiei unei variabile determinata de variatia celeilalte variabile. In cazul nostru, numai 0.4% (0.07²*100) din variatia calificativelor la testul de statistica este explicata prin diferenta de gen (masculin/feminin), ceea ce, in conformitate cu decizia statistica, s-a dovedit a fi nesemnificativ.

In conformitate cu recomandarile lui Cohen, cit. de Kotrlik si Williams (2003), valorile lui φ vor fi interpretate dupa cum urmeaza:

φ (Cohen)	0.10 0.25 0.40	efect mic
		efect mediu
		efect mare

Raportarea rezultatului

In cazul testului χ² elementele care vor fi incluse in raport sunt urmatoarele: gradele de libertate, valoare testului, nivelul p si coeficientul φ sau Cramer φ. In varianta narativa, pentru exemplul de mai sus, prezentarea rezultatelor ar putea avea urmatoarea forma:

"Rezultatele testului de statistica, evaluate pe cinci clase valorice (A,B,C,D,E) au fost comparate pe sexe. Testul χ² pentru asocierea variabilelor indica faptul ca rezultatele nu difera semnificativ in functie de gen, χ²(4) = 1.85, p >0 .05, cu un coeficient φ=0.07, care indica o asociere slaba".

In cazul in care testul ar fi fost semnificativ, raportarea rezultatelor ar fi trebuit sa contina si referinte cu privire la procentele consemnate in celulele tabelului de corespondenta, astfel incat sa fie scoase in evidenta diferentele releavnte dintre categoriile comparate.

Testul exact Fisher

Asa cum am precizat, testul chi-patrat este calculat pe baza unei formule ale carei rezultate nu urmeaza cu maxima precizie distributia χ². Daca in cele mai multe situatii acest lucru nu reprezinta un neajuns notabil, sunt si cazuri in care rezultatele pot fi alterate suficient de mult pentru a putea fi luate in considerare:

. atunci cand volumul esantionului este redus (N<20);

. atunci cand valorile f_e pentru una sau mai multe dintre celulele tabelei de corespondenta sunt foarte mici.

In aceste situatii, precum si atunci cand tabelul de corespondenta este compus din doua linii si doua coloane, este recomandabila utilizarea testului exact Fisher. El se bazeaza pe calcularea tuturor tabelelor posibile ce pot fi construite pentru frecventele marginale. Deoarece necesita un mare volum de calcule, testul exact Fisher se efectueaza numai cu ajutorul programelor computerizate.

Rezumat

. Distributia binomiala deriva din serii de evenimente independente dihotomice. Cele doua posibilitati ale fiecarui eveniment au probabilitatile P si Q, a caror suma este 1 (de unde Q=1-P).

. Atunci cand P=Q=0.5, distributia binomiala este simetrica. Pe masura ce numarul evenimentelor (N) creste, distributia binomiala se apropie de forma normala. Chiar si atunci cand P≠Q distributia binomiala se apropie de forma normala odata cu cresterea lui N.

. Atunci cand N creste la infinit, distributia binomiala devine normala, avand

media=N*P si abaterea standard=Ca urmare, probabilitatea ca un

anume eveniment sa cada in categoria P poate fi aproximata prin calcularea unui scor z si evaluarea ariei corespunzatoare de sub curba normala.

. Daca P=0.5, distributia normala devine o aproximare buna pentru distributia normala incepand cu N=25.

. Testul semnului poate fi utilizat in locul testului t pentru esantioane dependente atunci cand nivelul diferentei dintre cele doua determinari nu poate fi evaluat, ci numai directia diferentei. Dat fiind faptul ca fiecare diferenta poate fi intr-una din categorii (+ sau -) distributia binomiala poate fi utilizata pentru a estima in ce masura dezechilibrul intre cele doua categorii este posibil sa apara din intamplare (prin raportare la distributia normala).

. Atunci cand N nu este foarte mare, utilizarea distributiei normale pentru aproximarea distributiei binomiale introduce o eroare sistematica care poate fi compensata prin corectia de continuitate, extragand 0.5 din valoare absoluta a diferentei de la numaratorul scorului z.

. Daca evenimentele probabilistice pot avea mai mult decat doua posibilitati (de ex., adevarat-fals), probabilitatea cu care fiecare eveniment cade intr-una din categoriile posibile se supune distributiei multinomiale.

. Din cauza complexitatii procesului de evaluare a probabilitatilor multinomiale, este utilizata o estimare a acestora prin distributia chi-patrat. Numarul gradelor de libertate pentru distributia multinomiala este dat de numarul categoriilor minus 1.

. Testul chi-patrat are doua variante: (1) Testul chi-patrat al asocierii testeaza diferenta dintre valorile a doua variabile categoriale (nominale sau ordinale). (2) Testul chi patrat al corespondentei (goodness of fit) masoara diferenta ("potrivirea")dintre valorile unei variable categoriale si probabilitatile teoretice dinainte cunoscute ale acestor valori.

. Diferentele mari dintre frecventele observate si cele asteptate produc valori ridicate ale testului chi-patrat, care cad in zona dreapta (pozitiva) a distributiei de nul si

conduc la respingere a ipotezei de nul. Diferentele mici, produc valori ale testulu chi-patrat apropiate de zero, conducand la acceptarea ipotezei de nul. . Atunci cand fiecare dintre cele doua variabile au doar doua categorii, situatie in care frecventele asteptate sunt prea mici pentru a justifica o estimare chi-patrat, se utilizeaza testul exact Fischer.

EXERCITII

1. Pentru a verifica ipoteza ca exista o legatura intre numarul de internari psihiatrice si anotimp, au fost numarate internarile pentru fiecare anotimp, obtinandu-se urmatoarele valori: primavara=30; vara=40; toamna=20; iarna=10. Testati ipoteza ca internarile psihiatrice sunt inegal distribuite in functie de anotimp (pentru alfa=0.05).

2. Intr-un serviciu de psihologie clinica rezultatele mai multor psihologi in terapia unor pacienti cu tulburari severe au fost evaluate astfel: Ameliorare, Fara modificari, Inrautatire. rezultatele studiului se afla in tabelul alaturat:

	psih. A	psih. B	psih. C	psih. D	psih. E
Imbunatatire	15	11	16	13	10
Nemodificat	5	3	0	4	6
Inrautatire	0	6	4	3	4

. Enuntati ipoteza cercetarii si ipoteza de nul

. Gasiti χ² critic pentru α=0.01

. Testati ipoteza si prezentati rezultatul in format standard

. Calculati si interpretati coeficientul φ_c

Nota: Ignorati faptul ca doua din celulele tabelului au valoarea zero!

11/13

Intrebari pregatitoare pentru evaluarea partiala nr. 3 (15-17 ian.)

1. Care este coeficientul de determinare, daca r=-0.80?

2. In cazul testului t pentru esantioane dependente, pe ce scara se exprima valorile variabilei independente?

3. Care este numele celui care a introdus testul de corelatie pentru date parametrice?

4. Care este valoarea lui r pentru o corelatie perfecta?

5. Care dintre urmatorii coeficienti de corelatie este semnificativ: r=-0.70 (p=0.05) sau r=+0.70 (p=0.05)?

6. In ce caz o valoare a lui r apropiata de 0 (zero), indica, totusi, existenta unei corelatii intre variabile?

7. Distributia binomiala este

8. Care este probabilitatea lui P pentru un eveniment dihotomic aleator (DA/NU)?

9. Care este echivalentul parametric al testului z pentru proportii?

10. In cazul testului chi-patrat, frecventa asteptata se refera la

11. Testul chi-patrat goodness-of-fit se utilizeaza pentru a

12. Care sunt caracteristicile distributiei chi-patrat?

12/13

Tabelul χ² (partiala, pana la 30 de grade de libertate)⁴

dfaria	.100	.050	.025	.010	.005
1	2.70554	3.84146	5.02389	6.63490	7.87944
2	4.60517	5.99146	7.37776	9.21034	10.59663
3	6.25139	7.81473	9.34840	11.34487	12.83816
4	7.77944	9.48773	11.14329	13.27670	14.86026
5	9.23636	11.07050	12.83250	15.08627	16.74960
6	10.64464	12.59159	14.44938	16.81189	18.54758
7	12.01704	14.06714	16.01276	18.47531	20.27774
8	13.36157	15.50731	17.53455	20.09024	21.95495
9	14.68366	16.91898	19.02277	21.66599	23.58935
10	15.98718	18.30704	20.48318	23.20925	25.18818
11	17.27501	19.67514	21.92005	24.72497	26.75685
12	18.54935	21.02607	23.33666	26.21697	28.29952
13	19.81193	22.36203	24.73560	27.68825	29.81947
14	21.06414	23.68479	26.11895	29.14124	31.31935
15	22.30713	24.99579	27.48839	30.57791	32.80132
16	23.54183	26.29623	28.84535	31.99993	34.26719
17	24.76904	27.58711	30.19101	33.40866	35.71847
18	25.98942	28.86930	31.52638	34.80531	37.15645
19	27.20357	30.14353	32.85233	36.19087	38.58226
20	28.41198	31.41043	34.16961	37.56623	39.99685
21	29.61509	32.67057	35.47888	38.93217	41.40106
22	30.81328	33.92444	36.78071	40.28936	42.79565
23	32.00690	35.17246	38.07563	41.63840	44.18128
24	33.19624	36.41503	39.36408	42.97982	45.55851
25	34.38159	37.65248	40.64647	44.31410	46.92789
26	35.56317	38.88514	41.92317	45.64168	48.28988
27	36.74122	40.11327	43.19451	46.96294	49.64492
28	37.91592	41.33714	44.46079	48.27824	50.99338
29	39.08747	42.55697	45.72229	49.58788	52.33562
30	40.25602	43.77297	46.97924	50.89218	53.67196

Politica de confidentialitate | Termeni si conditii de utilizare

DISTRIBUIE DOCUMENTUL

Vizualizari: 6503
Importanta:

Comenteaza documentul:

Te rugam sa te autentifici sau sa iti faci cont pentru a putea comenta

Creaza cont nou

Distribuie URL
https://www.scrigroup.com/diverse/Distributia-multinomiala-Teste92815.php

Adauga cod HTML in site
<a href="https://www.scrigroup.com/diverse/Distributia-multinomiala-Teste92815.php" target="_blank" title=" - https://www.scrigroup.com/diverse/Distributia-multinomiala-Teste92815.php">Distributia multinomiala - Testele chi-patrat</a>