CATEGORII DOCUMENTE
Afaceri Calculatoare Casa masina Didactica pedagogie Diverse Educatie Finante Geografie Istorie & politica Legislatie Limba Management Sanatate Tehnologie

Access	Adobe photoshop	Algoritmi	Autocad	Baze de date	C	C sharp
Calculatoare	Corel draw	Dot net	Excel	Fox pro	Frontpage	Hardware
Html	Internet	Java	Linux	Matlab	Ms dos	Pascal
Php	Power point	Retele calculatoare	Sql	Tutorials	Webdesign	Windows
Word	Xml

Statistica multivariata — Inferenta statistica - Testarea ipotezelor statistice (Excel)

excel

+ Font mai mare | - Font mai mic

DOCUMENTE SIMILARE

Referinte catre celule

Test pentru– Calcul Tabelar

COUNT Numara celulele care contin numere si numerele dintr-o lista de argumente

TUTORIAL MICROSOFT EXCEL

Utilizarea barelor cu instrumente din aplicatia Excel

Deschiderea (si inchiderea) unei aplicatii de calcul tabelar

LOGINV calculeaza inversa functiei de repartitie cumulativa de tip lognormal pentru x

Formatarea valorilor numerice

SKEW Calculeaza asimetria unei distributii

Utilizarea programului Excel ca baza de date

TERMENI importanti pentru acest document

Statistica multivariata — Inferenta statistica - Testarea ipotezelor statistice (Excel)

A. Notiuni teoretice

Fie un spatiu de probabilitate Ω,A, P). Se numeste variabila aleatoare o functie reala XΩ→ℜ , care satisface conditia:

^^^X^^{≤ x}^^{∈ A, oricare ar fi x ∈ ℜ.}

_{Numim functie
de repartitie
a
v a.
X,
functia
reala de
variabila reala,}

F ℜ→ℜ, definita prin

_{F(x)  P(X ≤ x),}unde prin (X ≤ x) s-a notat evenimentul

ϖ X  ≤ x^{adica reuniunea
acelor
evenimente
elementare
pentru care
v a. ia}valori mai mici sau egale cu x.

Functia de repartitie se zice absolut continua daca exista o functie reala,

f:ℜ→ℜ, astfel încât

F( x) 

_∫^{f u) d u,}

−∞

Interpretarea geometrica este cea uzuala de marime a ariei de sub graficul functiei f.

Functia f, daca exista, se numeste densitate de probabilitate a v a. X.

Observatie Functia de repartitie contine toata informatia necesara pentru calcularea probabilitatilor cu care o variabila aleatoare ia valori n anumite intervale si pentru acest lucru va fi utilizata în ceea ce ne intereseaza.

Repartitii teoretice remarcabile

Repartitia normala

Aceasta repartitie are un rol central, atât din considerente teoretice, c t si practice (nu în ultimul rând, usurinta aplicarii). Teoretic, repartitia normala reprezinta o repartitie limita catre care tind, în anumite conditii, celelalte repartitii.

Prin definitie, o variabila continua X are o repartitie normala, sau repartitie

_G_a_u_{ss–Laplace, daca functia de repartitie este data de:}

^{F(x)  P(X  x) }_∫

−∞

¹_e⁻

²^

(t −  ²

2σ ²

x ∈ ℜ,  ∈ ℜ   0,

unde  si  sunt parametrii functiei de repartitie

Functia de repartitie normala se va nota prin N ^ iar faptul ca v a. X este repartizata normal cu parametrii  si  se noteaza X ~ N  ²

Parametrii repartitiei au semnificatia unor valori tipice si anume

_M_{(X) = Me(X) = Mo(X) =  D}²_{(X) = }²

motiv pentru care se poate vorbi de repartitia normala cu media  si dispersia ², ceea ce determina complet repartitia.

Repartitia normala N(0,1) se numeste repartitia normala redusa, repartitia normala normata sau repartitia normala standard. O v.a. repartizata N(0;1) este notata, n mod uzual, cu Z si este referita drept variabila Z, variabila normala redusa etc. Orice variabila repartizata normal poate fi transformata într-o v.a. repartizata N(0;1) prin transformarea (de normare, de standardizare)

_{Z }^X⁻^



Inferenta statistica

Prin inferenta statistica se ntelege, în sensul precizat anterior, obtinerea de concluzii bazate pe o evidenta statistica, adica pe informatii derivate dintr-un esantion. Concluziile sunt asupra caracteristicilor populatiei din care provine esantionul.

Observatie. Daca este investigata întreaga populatie, atunci rezultatele care se obtin

constituie finalul prelucrarii si nu sunt necesare si nici posibile) prelucrarile introduse în aceasta sectiune.

Prin esantion sau selectie) vom întelege o submultime a populatiei statistice

considerate. Operatiunea de formare a unui esantion se numeste sondaj. Sondajele care au sanse mai mari de a produce esantioane reprezentative sunt cele bazate pe proceduri de selectie aleatoare.

In esantioane diferite, statisticile calculate au valori diferite. În acest fel se poate vorbi despre o distributie a valorilor statisticii n multimea esantioanelor de un acelasi volum; apare astfel distributia de sondaj a statisticii respective.

Inferenta statistica implica trei distributii asociate cu caracteristica studiata:

 distributia populatiei;

 distributia de sondaj;

 distributia esantionului.

Prin distributia populatiei se ntelege distributia pe care o are caracteristica studiata (sau v.a. asociata ei) n populatie. Aceasta distributie nu este, în general, cunoscuta. Interesul unei cercetari este tocmai acela de a studia aceasta distributie.

Prin distributia esantionului se întelege distributia pe care o are caracteristica

studiata în esantionul disponibil n studiu. Aceasta distributie este cunoscuta complet, întrucât toate datele necesare sunt masurate.

Prin distributia de sondaj a unei statistici se întelege distributia pe care o are statistica în multimea tuturor esantioanelor de volum dat. Este nsa remarcabil faptul ca, din considerente teoretice, între distributia populatiei si distributia de sondaj exista legaturi bine precizate sau, datorita unor teoreme de limita centrala, se cunoaste forma acestei distributii atunci când volumul esantionului creste tinde spre infinit).

Inferenta statistica urmeaza, în general, urmatorul algoritm:

 se obtine, printr-un procedeu valid, un esantion;

 se calculeaza o valoare tipica a esantionului (o statistica de sondaj);

 din considerente teoretice, se cunoaste repartitia din care provine aceasta valoare tipica si relatia repartitiei de sondaj a statisticii cu valoarea tipica din populatie;

 utilizând repartitia de sondaj a statisticii se pot face evaluari ale erorilor de estimatie.

_{Repartitia de sondaj a mediei}_{este caracterizata de}

_{M( x) }_

_D²_{x) }^

_

_{D( x)  .}

ⁿn

_{Practic, se poate accepta o repartitie N(}^_/n)

 pentru n > 10 daca repartitia lui X este aproape simetrica, sau

 pentru n > 30 pentru repartitii cu asimetrie pronuntata sau necunoscuta.

Estimatii

Se numeste estimator orice entitate a carei valoare poate fi utilizata drept valoare (de regula aproximativa) pentru o alta entitate. Valoarea estimatorului se zice ca este o estimatie.

Valoarea care aproximeaza, pe baza datelor de sondaj, valoarea necunoscuta a

unui parametru al populatiei poarta denumirea de estimatie statistica. Astfel, media aritmetica este estimator pentru media populatiei , abaterea standard s este estimator pentru abaterea standard a populatiei  etc.

Dupa natura lor, n statistica se utilizeaza doua tipuri de estimatii:

 punctuale

 sub forma de interval.

Printr-o estimatie punctuala se întelege valoarea unui estimator calculata într-un esantion. Numim eroare de estimare valoarea absoluta a diferentei dintre estimatia punctuala si valoarea parametrului estimat.

Fie o populatie statistica, caracterizata de o v.a. continua X a carei repartitie

depinde de un parametru , necunoscut. Prin definitie, daca se pot determina ₁si ₂astfel încât pentru o valoare  prestabilita (0 <  < 1) sa aiba loc _P(_₁____₂_{ 1 −}_ atunci intervalul ₁, ₂) se numeste interval de ncredere pentru parametrul necunoscut  cu un coeficient (sau nivel) de încredere egal cu , sau cu o siguranta statistica S_ 1–.

^{Daca at t }₁^c^{t si }₂^s^{unt finite, atunci intervalul de încredere se zice bilateral.}

În cazul c nd ₁este -∞, sau ₂este +∞, ceea ce revine în fapt la determinarea unei singure limite, intervalul se zice unilateral.

Intervale de ncredere pentru valoarea medie

Fie o populatie statistica caracterizata de o v a. X repartizata normal, cu parametrii  si ² Presupunem ca s-au obtinut, dintr-un esantion de volum n, media de sondaj x si dispersia de sondaj s² Fixam pragul de semnificatie .

Daca dispersia, ²este cunoscuta, intervalul de încredere pentru media populatiei:

_x₋^_z

_n₁₋^

   x 

^_z

_n₁₋^

_{Daca dispersia, }²_{, nu este cunoscuta}

_x₋^s

ⁿ

^t1− / 2 

   x 

^t₁₋_{ / 2 }

ⁿ

Intervale de ncredere pentru dispersie

Fie o populatie normala, sau aproximativ normala, cu parametrii  si ²necunoscuti. Se demonstreaza ca intervalul de ncredere bilateral pentru dispersia populatiei, cu încrederea statistica de 1–, este dat de

n − 1 s²

₂

_²_ⁿ^{− 1 s}

grade de libertate.

Testarea ipotezelor statistice

Fara a ncerca o generalizare, se poate accepta ideea ca, n cele mai multe prelucrari statistice, datele sunt obtinute si prelucrate pentru a verifica ipoteze ale cercetatorilor. Deci, ca o prima imagine a subiectului, trebuie retinuta secventa:

1. formularea unei ipoteze;

2. obtinerea de date experimentale;

3. verificarea ipotezei pe baza acestor date.

Vom considera semnificativ un eveniment care contrazice ipoteza de plecare.

_R_a_{tionamentul general}

Lumea reala	Statistica
	Se formuleaza setul de ipoteze H₀ H₁
Are loc un eveniment Rezulta ca probabilitatea de realizare este suficient de mare	Se calculeaza, dintr-un esantion, o statistica (statistica testului).
	Se calculeaza, în ipoteza H₀ probabilitatea p_cde aparitie a valorii calculate (probabilitatea critica a testului, p value
	Daca p_ceste mica, apare o contradictie,
	Pentru a rezolva contradictia se va respinge H₀ n favoarea ipotezei H₁deoarece motivul pentru care probabilitatea critica este mica este faptul ca la calculul acesteia s-a acceptat ipoteza H₀
	Daca p_ceste mare, nu se respinge H₀ nu exista nici un motiv pentru a lua decizia contrara.

Ram ne o singura întrebare: începând de unde o probabilitate este considerata

drept mica ? Pentru a nu introduce subiectivismul în aceasta decizie, se fixeaza, anterior deciziei în test, un prag sub care o probabilitate este considerata mica Aceasta valoare se numeste prag de semnificatie si se noteaza uzual cu .

Regula de decizie în test poate fi formulata atunci:

 daca p_c≤ , atunci se respinge ipoteza nula, H₀, în favoarea ipotezei alternative, H₁

 daca p_c  , atunci nu se respinge ipoteza nula H₀

Se numeste regiune de respingere, pentru un nivel de semnificatie  fixat, multimea rezultatelor (valorilor statisticii testului) care conduc la respingerea ipotezei

H₀. Daca se pot defini limitele numerice ale regiunii de respingere, acestea se vor numi, uneori, valori critice ale testului.

Testele pot fi

 parametrice = ipoteza H₀este strict legata de un parametru al populatiei, iar statistica testului are o repartitie cunoscuta tocmai din aceasta ipoteza.

 neparametrice = repartitia statisticii testului se calculeaza si nu rezulta din presupuneri apriorice asupra acestei distributii si a probabilitatilor atasate.

Testele parametrice pot fi ( noteaza un parametru al populatiei):

 bilaterale (nedirectionale) H₀:   _

^H₁^{:  ≠ }_

 unilaterale (directionale)

H₀:   _

^H₁^{:  < (sau >) }_

Un test statistic are, de multe ori, o denumire data de repartitia statisticii

testului: teste normale (sau Z), teste Student (sau t), teste F etc. Astfel, un test 2 reprezinta un test a carui statistica are o repartitie de sondaj din clasa 2..

Categorii de teste

Testele sunt clasificate în teste pentru variabile continue si teste pentru variabile discrete nominale sau ordinale). Primele sunt, de regula, teste parametrice, celelalte sunt neparametrice.

Teste de concordanta

Aceste teste se refera la potrivirea, concordanta dintre valorile calculate în esantion (statisticile de sondaj) si valorile parametrilor respectivi din populatia statistica (valori cunoscute sau presupuse). Cu alte cuvinte, problema poate fi formulata: cât de mult poate sa se abata o valoare calculata (dintr-un esantion) de la valoarea presupusa pentru întreaga populatie pentru a putea considera ca are loc o nepotrivire între cele doua valori?

Desi formulata astfel problema pare ca se refera la esantion si la populatia de baza, punctul de vedere corect este:

1. exista o populatie statistica de interes, fie ea P₁

2. pentru orice esantion se poate considera o populatie de baza din care este

extras esantionul (reprezentativ pentru acea populatie); fie P₂aceasta

populatie;

3. problema este daca se poate considera ca P₂este în concordanta cu P₁, adica parametrii de interes ai celor doua populatii nu difera semnificativ.

Se observa ca testarea se va efectua pentru ipoteze privind populatii, se va utiliza informatia dintr un esantion, deci ramânem în domeniul inferentei statistice.

Ipoteza nula va afirma, n general, ca populatiile P₁si P₂concorda. Respingerea ipotezei nule poate avea, în practica, doua consecinte:

 se va considera ca esantionul nu este reprezentativ pentru populatia de interes, populatie care se considera stabila; se va cauta un alt esantion;

 se va considera ca populatia P₁si-a modficat ntre timp parametrii; noua populatie de referinta este P₂

Alegerea între cele doua afirmatii apartine practicianului din domeniul studiat, fiind, de cele mai multe ori, o alegere ghidata de intuitie, de experienta etc.

1	0,40
2	0,15
3	0,20
4	0,25

Precizarea distributiei se face enumerând, într o zona continua, valorile posibile si probabilitatile asociate acestora, de genul

pentru o variabila care ia valoare 1 cu probabilitatea 0,4, valoarea 2 cu probabilitatea 0 15 etc. Acest exemplu poate sa corespunda repartitiei unei variabile nominale pentru care categoriile au fost codificate cu 1, 2, 3, sau 4.

Value and Probability Input Range – se precizeaza domeniul care contine definirea repartitiei discrete: un domeniu dreptunghiular care da probabilitatile valorilor numerice posibile. Domeniul poate fi selectat dinamic.

Repartitie normala (Normal)

Structura zonei Parameters este prezentata în figura alaturata. Pentru determinarea distributiei este necesar sa se precizeze valorile pentru media si abaterea standard a populatiei.

Mean – se precizeaza valoarea pentru media populatiei.

Standard Deviation – se precizeaza valoarea pentru abaterea standard a populatiei.

Valorile implicite sunt cele ale

repartitiei normale standard, media 0 si abaterea standard 1.

SAMPLING

Procedura de sondaj permite obtinerea unei submultimi dintr-o multime de valori existenta. Parametrii prezenti în dialogul procedurii sunt explicati n continuare.

Inp u t

Input Range – se specifica domeniul, sau denumirea domeniului, care contine datele din care se va face selectia. Domeniul poate fi selectat si n mod dinamic. Datele care joaca rolul populatiei statistice trebuie sa fie de tip numeric si organizate, de preferinta, sub forma unei coloane sau a unei linii. Prima celula poate contine denumirea setului de date. În cazul în care selectia se face dintre nregistrarile unei baze de date (fiecare înregistrare av nd, uzual, mai multe câmpuri) se va indica drept domeniu doar coloana unui c mp cum ar fi numarul înregistrarii, sau codul (numeric) de identificare etc.

Labels – boxa de control va fi marcata daca domeniul indicat contine pe prima pozitie denumirea setului de date.

Sa mplin g Method

n acest grup se precizeaza metoda de selectie.

Periodic – selectarea acestui buton radio permite indicarea n c mpul Period a cotei fixe de formare a esantionului. Daca, de exemplu, se completeaza 5, atunci esantionul este format din al 5-lea element si toate cele care urmeaza din 5 în 5 (al 10-lea element, al 15-lea, al

20-lea etc.)

Random – selectarea acestui buton radio indica o formare aleatoare a esantionului. Fiecare element are aceeasi probabilitate de a fi ales. Din acest motiv, daca multimea de baza este relativ restrânsa, atunci unele elemente pot sa apara de mai multe ori în esantionul constituit. Volumul esantionului se specifica în câmpul Number of Samples.

Outpu t o p tions

Verificarea ipotezelor statistice

Sunt disponibile proceduri pentru efectuarea a trei tipuri de teste statistice:

test F pentru compararea dispersiilor;

test t pentru compararea mediilor, în toate variantele principale (esantioane corelate, dispersii egale, dispersii neegale ;

test z pentru compararea mediilor.

Fiecare procedura are ca rezultat at t probabilitatea critica a testului respectiv, c t si valoarea critica pentru un nivel de semnificatie fixat de utilizator. Ipoteza nula este, pentru fiecare test, aceea a egalitatii, deci respingerea ei se va face daca probabilitatea critica este mai mica dec t , sau daca valoarea calculata este mai mare dec t valoarea critica.

Compararea mediilor unor (sub)populatii se realizeaza prin proceduri apelate

din dialogul deschis prin Tools – Data Analysis.

Atunci când se compara mediile a doua populatii pe baza unor esantioane necorelate este necesara parcurgerea etapelor:

1. Testarea egalitatii dispersiilor prin procedura F-Test Two-Sample for

Variances

2. În functie de decizia n test se va aplica

 t-Test: Two-Sample Assuming Equal Variances în cazul nerespingerii ipotezei nule din testul F

 t-Test: Two-Sample Assuming Unequal Variances n cazul respingerii ipotezei nule n testul F.

Daca esantioanele sunt corelate, situatie caracteristica compararii rezultatelor unui grup nainte si dupa efectuarea unui experiment, se aplica procedura t-Test: Paired Two Sample For Means.

F–TEST TWO SAMPLE FOR VARIANCES

Dialogul initiat de alegerea optiunii F-Test Two-Sample for Variances este prezentat în figura III 25. În zona Input se vor indica domeniile ocupate de cele doua esantioane si pragul de semnificatie ales. Zona Output va preciza domeniul unde se înscriu rezultatele prelucrarii.

Concluzia testului este aceea ca ipoteza nula nu poate fi respinsa. Se va tolera prin urmare ipoteza ca dispersiile sunt egale sau, cu alte cuvinte, ca în populatiile din care provin esantioanele variabila urmarita prezinta acelasi grad de mprastiere.

TESTE STUDENT (t)

Sunt disponibile trei teste bazate pe distributia Student. În toate cazurile se verifica

ipoteza nula privind mediile atât într un test unilateral, cât si bilateral.

Ipoteza nula priveste o diferenta fixata a mediilor:

H₀: ₁ ₂ d,

unde ₁, ₂sunt mediile populatiilor din care provin esantioanele disponibile, iar d este diferenta presupusa sau cunoscuta a mediilor.

Pentru a testa egalitatea mediilor celor doua populatii se va aplica procedura n cazul particular d = 0.

Cele trei teste t sunt cazurile principale din punct de vedere practic:

testul t pentru esantioane corelate;

testul t pentru populatii cu dispersii egale;

testul t pentru populatii cu dispersii neegale.

t TEST: PAIRED TWO SAMPLE FOR MEANS

Sunt considerate doua esantioane cu date perechi corelate), provenite eventual dintr-o cercetare pretest-posttest pe un acelasi esantion, din care un esantion este lotul experimental, celalat fiind lotul martor. Compararea mediilor este efectuata pentru a decide daca experimentul la care este supus lotul experimental produce o abatere suficient de mare în media variabilei de control.

_{În figura se prezinta dialogul de fixare a parametrilor procedurii.}

Inp u t

Variable 1 Range, Variable 2 Range – contin referintele la zonele celor doua esantioane, respectiv. Deoarece testul este pentru esantioane cu date perechi, este necesar ca zonele indicate sa aiba acelasi numar de celule completate cu date numerice, valorile de pe aceleasi pozitii în cele doua serii fiind perechi. Domeniile pot fi selectate dinamic.

Hypothesized Mean Difference – contine valoarea testata pentru diferenta mediilor. Daca se indica valoarea 0 zero , atunci se verifica ipoteza egalitatii mediilor.

Labels – boxa de control se marcheaza daca zonele de date indicate contin pe primele locuri denumirile zonelor.

P(T<=t) one-tail – probabilitatea critica unidimensionala, arata care este probabilitatea ca o variabila Student cu df grade de libertate sa depaseasca valoarea calculata. Daca aceasta valoare este mai mica decât pragul de semnificatie fixat, atunci se poate respinge ipoteza nula în favoarea ipotezei alternative. Deoarece, n situatia data, prima medie este mai mare, ipoteze alternativa ntr-un test unilateral este

^H₁^{: }₁^{– }₂^{> 0 sau, echivalent, H}₁^{: }₁^{> }₂

Valoarea 0 169 afisata este mai mare decât toate valorile  uzuale, deci nu se poate

respinge ipoteza nula. Prin urmare se pare ca diferenta dintre medii este datorata mai mult întâmplarii, selectiei esantionului.

t Critical one-tail – valoarea critica unidimensionala pentru pragul de semnificatie  = 0,05

(precizata n dialogul procedurii). Daca valoarea t calculata este mai mare decât aceasta valoare critica, atunci se poate respinge H₀ n favoarea ipotezei alternative H₁: ₁> ₂. Pentru exemplul prezentat acest fapt nu se înt mpla 0,984 < 1 729 .

P(T<=t) two tail – probabilitatea critica bilaterala, arata care este probabilitatea ca o variabila Student cu df grade de libertate sa depaseasca, n valoare absoluta, valoarea calculata. Cu alte cuvinte, probabilitatea ca diferenta dintre mediile populatiilor sa fie mai departata de zero decât diferenta observata.

Daca aceasta valoare este mai mica decât pragul de semnificatie fixat, atunci se

poate respinge ipoteza nula în favoarea ipotezei alternative a unor medii diferite: H₁: ₁≠

₂

^{Valoarea 0,337 afisata
este mai mare decât toate valorile }

^{uzuale, deci nu se poate respinge ipoteza nula.}

t Critical two-tail – valoarea critica bidimensionala pentru pragul de semnificatie  = 0 05 (precizata n dialogul procedurii). Daca valoarea t calculata este mai mare, în valoare absoluta, decât aceasta valoare critica, atunci se poate respinge H₀ n favoarea ipotezei alternative H₁: ₁≠ ₂. Pentru exemplul prezentat, | t | = |0 984| = 0 984 < 2 093, deci nu se poate respinge ipoteza nula.

z-TEST: TWO SAMPLE FOR MEANS

Aceasta procedura serveste pentru compararea mediilor a doua populatii atunci când se cunosc dispersiile acestora. Testul utilizat este bazat pe distributia normala standard.

Inp u t

Variable 1 Range, Variable 2 Range – contin referintele la zonele celor doua esantioane, respectiv. Domeniile indicate pot sa aiba numere diferite de celule, dar completate cu date

numerice (cel mult prima celula n fiecare zona poate fi un titlu). Domeniile pot fi selectate dinamic.

Hypothesized Mean Difference – contine valoarea testata pentru diferenta mediilor. Daca se indica valoarea 0 zero , atunci se verifica ipoteza egalitatii mediilor.

Variable 1 Variance (known), Variable 2 Variance known) – dispersiile celor doua populatii.

Acestea se presupun cunoscute. n practica, pentru esantioane mari, se pot lua valorile dispersiilor de sondaj, dar în aceasta situatie este preferabil sa se aplice un test t decât un test z.

Labels – boxa de control se marcheaza daca zonele de date indicate contin pe primele locuri denumirile zonelor.

Alpha – contine valoarea pragului de semnificatie utilizat de procedura pentru a calcula valorile critice ale statisticii (utilizate ca limite ale domeniului de respingere a ipotezei nule). Implicit se ia  = 0,05.

Outpu t o p tions

Output Range, New Worksheet Ply, New Workbook – potrivit descrierii de la Descriptive Statistics. Precizeaza domeniul din foaia de calcul unde se vor nscrie rezultatele. Rezultatele sunt formatate ca un tabel pentru care se va preciza pozitia coltului din stânga sus. Semnificatia rubricilor din tabel este explicata în exemplul prezentat.

Ex emplu

Pentru a compara mediile a doua populatii s-au extras doua esantioane de volume 35, respectiv 34. Se cunoaste, din alte cercetari, ca dispersiile populatiilor sunt 18 si 15, respectiv. Dispersiile de sondaj concorda cu aceste valori.

Pentru a compara mediile populatiilor se aplica un

test z. Resultatele sunt explicate în continuare.

Mean – mediile de sondaj ale celor doua esantioane. Known Variance – dispersiile cunoscute ale celor

doua populatii.

Observations – numarul de observatii volumul esantionului).

Hypothesized Mean Difference – valoarea cu care se compara diferenta mediilor populatiilor. Testarea egalitatii mediilor revine la a compara diferenta mediilor cu zero.

z – valoarea calculata a statisticii testului. Provine,

teoretic, dintr-o repartitie normala standard.

valoare critica, atunci se poate respinge H₀ n favoarea ipotezei alternative H₁: ₁> ₂. Pentru exemplul prezentat acest fapt nu se înt mpla (2,4096 < 1,6449).

P(Z<=z) two tail – probabilitatea critica bilaterala, arata care este probabilitatea ca o variabila normala standard sa depaseasca, în valoare absoluta, valoarea calculata. Cu alte cuvinte, probabilitatea ca diferenta dintre mediile populatiilor sa fie mai departata de zero decât diferenta observata.

Daca aceasta valoare este mai mica decât pragul de semnificatie fixat, atunci se

poate respinge ipoteza nula în favoarea ipotezei alternative a unor medii diferite: H₁: ₁≠

₂

Valoarea 0,016 afisata este mai mica dec t  = 0 05, deci se poate respinge ipoteza nula.

z Critical two-tail – valoarea critica bidimensionala pentru pragul de semnificatie  = 0 05 (precizata în dialogul procedurii). Daca valoarea z calculata este mai mare, n valoare absoluta, decât aceasta valoare critica, atunci se poate respinge H₀ n favoarea ipotezei alternative H₁: ₁≠ ₂. Pentru exemplul prezentat, | z | = |2,4096| = 2,4096 > 1 96, deci se poate respinge ipoteza nula.

C. Lucrarea practica

1) Un studiu a aratat ca 50% dintre utilizatorii de internet au primit mai mult de 10 mesaje e mail pe zi. Repetând, dupa un timp, studiul, se doreste verificarea ipotezei ca a crescut utilizarea e mail-ului. Sa se precizeze ipoteza nula si ipoteza alternativa a testului statistic adecvat.

2) Într-un test z cu ipotezele H₀: ₁− µ₂ 5 vs. H₁: µ₁− µ₂> 5 s-a obtinut statistica testului z = 1.69. Care este probabilitatea critica a testului?

3) Se vor genera doua coloane de câte 100 de valori dintr-o repartitie normala cu media 0 si dispersia 1.

i) sa se calculeze mediile si dispersiile celor sirruri de valori; sa se compare cu valorile 0, respectiv 1, si sa se interpreteze rezultatul comparatiilor în termenii populatie esantion.

ii) sa se testeze egalitatea mediilor celor doua seturi de valori cu valoarea

teoretica 0.

iii) sa se testeze daca cele doua seturi de valori au mediile egale.

4) Se vor genera doua coloane de valori din repartitii normale cu medii si dispersii diferite. Presupunând ca media celei de a doua coloane difera de media primei coloane cu , sa se verifice, prin generari repetate ale coloanelor, daca esantioanele pot fi considerate ca apartinând aceleiasi populatii.

i) Se va mari treptat diferenta  ca si diferenta dispersiilor, pentru a obtine o imagine intuitiva asupra raspunsului la întrebarea: cât de mare trebuie sa

fie diferenta pentru ca esantioanele sa nu pota fi considerate omogene?

ii) Se va studia si influenta diferentelor dintre dispersii asupra concluziei testului.

5) Se importa n Excel fisierul admitere txt (utilizat la lucrarea nr.1). Sa se verifice statistic daca

i) mediile la bacalaureat pot fi considerate egale pentru cei care opteaza la

analiza, programare C sau programare Pascal

ii) mediile la scris pot fi considerate egale pentru cei care opteaza la analiza, programare C sau programare Pascal

Statistica multivariata — Inferenta statistica - Testarea ipotezelor statistice (Excel)

excel

DOCUMENTE SIMILARE

TERMENI importanti pentru acest document

DISTRIBUIE DOCUMENTUL

Comenteaza documentul: