Scrigroup - Documente si articole

     

HomeDocumenteUploadResurseAlte limbi doc
AccessAdobe photoshopAlgoritmiAutocadBaze de dateC
C sharpCalculatoareCorel drawDot netExcelFox pro
FrontpageHardwareHtmlInternetJavaLinux
MatlabMs dosPascalPhpPower pointRetele calculatoare
SqlTutorialsWebdesignWindowsWordXml

SPSS - Biostatistica

calculatoare



+ Font mai mare | - Font mai mic



SPSS - Biostatistica

SPSS pentru Windows este unul dintre cele mai puternice sisteme cu interfata grafica pentru analiza statistica si managementul datelor, care permite, conform principiilor de lucru promovate de sistemele de operare de tip Windows `95, realizarea majoritatii operatiilor prin intermediul meniurilor descriptive si al ferestrelor de dialog.

Pe langa interfata simpla pusa la dispozitia utilizatorului, SPSS pentru Windows are si urmatoarele facilitati:



Editarea datelor: in acest scop se foloseste un sistem de foi de calcul construit dupa modelul MS Excel, care permite definirea, introducerea, editarea si afisarea datelor;

Vizualizarea datelor: se realizeaza prin intermediul unui Viewer care permite afisarea selectiva a rezultatelor, modificarea ordinii de afisare a lor si eventual exportul tabelelor sau al graficelor in formate compatibile cu alte aplicatii (de editare de text);

Tabele pivot multidimensionale: sunt folosite ca modalitate principala de afisare a rezultatelor si permit rearanjarea liniilor, a coloanelor si a aspectului grafic, precum si impartirea in subtabele pentru compararea grupurilor de date;

Grafice de inalta rezolutie: sunt incluse ca fucntii standard in SPSS si penrmit folosirea unor palete largi de culori;

Acces la baze de date: permite interogarea bazelor de date folosind un program asistent in acest scop (Database Wizard), in locul interogarilor SQL care sunt mai dificil de implementat;

Transformarea datelor: in vederea pregatirii lor pentru analiza; este posibila selectarea doar a unor submultimi de date, combinarea categoriilor (campurilor) si operatii standard, cum ar fi: adaugare, stergere, reuniune, descompunere;

Distributie electronica: sunt implementate facilitati pentru transmiterea directa prin e-mail a rapoartelor de rezultate sau pentru exportul tabelelor si al graficelor in format HTML;

Help Online: manual de utilizare bine documentat, senzitiv la context, cu module pentru solutionarea problemelor de analiza statistica (Statistics Coach) dar si pentru interpretarea rezultatelor (Results Coach).

Interfata SPSS este constituita din urmatoarele tipuri de ferestre:

Data Editor: in aceasta fereastra este afisat continutul fisierului de date care urmeaza a fi analizate, putand fi de asemeni create prin intermediul acesteia noi fisiere de date sau modificate cele existente. La initializarea unei sesiuni de lucru SPSS fereastra Data Editor se activeaza in mod automat; la un moment dat un singur fisier de date poate fi deschis pentru analiza statistica.

Viewer: reprezinta zona de afisare a tuturor rezultatelor, tabelelor si graficelor, cu posibilitatea de editare a acestora si de salvare a lor pentru utilizarea ulterioara; aceasta fereastra se activeaza automat dupa rularea primei proceduri care genereaza rezultate.

Draft Viewer: permite afisarea rezultatelor sub forma de text simplu, neformatat , in locul tabelelor pivot interactive.

Pivot Table Editor: permite editarea rezultatelor afisate sub forma de tabele pivot (modificare text, schimbarea ordinii liniilor sau coloanelor, colorare, crearea de tabele multidimensionale si ascunderea sau afisarea selectiva a rezultatelor.

Chart Editor: permite modificarea graficelor generate de SPSS si afisate in fereastra Chart Window: modificarea culorilor, selectarea diferitor fonturi, inversarea axelor orizontala si verticala, rotirea graficelor 3D si chiar modificarea tipului de grafic generat la un moment dat.

Text Output Editor: permite editarea rezultatelor de tip text care nu sunt afisate in tabele pivot, si modificarea caracteristicilor fonturilor utilizate.

Syntax Editor: reprezinta o fereastra de sintaxa, in care pot fi salvate optiunile bifate prin intermediul ferestrelor de dialog, sub forma unor comenzi SPSS. Acestea vor putea fi editate ulterior, accesand astfel si alti parametri care nu sunt disponibili in varianta interactiva, si pot fi de asemeni salvate in fisiere de comenzi pentru a fi executate simultan in sesiuni de lucru ulterioare.

Script Editor: permite de asemeni modificarea sau crearea unor script-uri simple pentru personalizarea sau automatizarea unor procese de calcul din SPSS.

1. Pasii de baza in analiza datelor

Derularea unei sesiuni de analiza a datelor in SPSS presupune parcurgerea urmatoarelor etape:

Deschiderea fisierului de date care urmeaza a fi supuse analizei: se poate realiza in mai multe modalitati: deschiderea unui fisier de date SPSS salvate anterior, citirea / importul unei foi de calcul realizate in Microsoft Excel, a unui fisier de tip text sau a unei baze de date, sau introducerea directa a datelor prin intermediul editorului de date (fereastra Data Editor).

Selectarea unei proceduri din meniurile disponibile, pentru a calcula statistici sau pentru a genera un grafic.

Selectarea variabilelor care urmeaza a fi analizate.

Rularea procedurii si vizualizarea rezultatelor (care vor fi afisate in fereastra Viewer).

In cazul in care nu cunoastem programul SPSS sau procedurile de analiza statistica disponibile, in oricare dintre aceste etape se poate folosi utilitarul intitulat Statistics Coach, care furnizeaza explicatii intr-un limbaj simplu si exemple vizuale pentru selectia principalelor instrumente de analiza statistica care sunt adecvate naturii datelor de analizat. Acest utilitar, insa, ofera asistenta numai pentru procedurile statistice din modulul de baza al sistemului SPSS (corespunzatoare tehnicilor de analiza cele mai simple si mai des folosite), pentru prezentari mai detaliate asupra tuturor functiilor disponibile fiind insa necesara folosirea ghidului complet de utilizare (SPSS Base Applications Guide).

2. Fisierele de date

SPSS permite lucrul cu fisiere de date realizate folosind si alte soft-uri de prelucrare a datelor, cum ar fi:

foi de calcul create in Lotus 1-2-3 sau Microsoft Excel;

baze de date create in dBASE sau sub format SQL;

fisiere de tip text ASCII, folosind Tab-uri pentru delimitare;

fisiere de date SPSS create sub alte sisteme de operare;

fisiere de date SYSTAT.

Deschiderea unui fisier de date:

Se realizeaza direct, fara a fi necesara convertirea prealabila a fisierelor in formate intermediare sau descrierea definitiei datelor - pentru fisierele create in MS Excel, Lotus 1-2-3, dBASE sau de tip text delimitat prin Tab-uri.

Din menu-ul superior se foloseste File / Open / Data., dupa care este suficienta doar precizarea tipului de fisier pe care dorim sa il deschidem.

La incarcarea unui fisier creat in Microsoft Excel, optional, se pot preciza si urmatoarele elemente (figura 8.80):

Read variable names: Numele variabilelor vor fi citite ca atare de pe prima linie a fisierului sau de pe prima linie a domeniului specificat de celule; daca numele variabilelor sunt mai lungi de 8 caractere, ele vor fi trunchiate; daca folosirea primele 8 caractere duce la aparitia unor nume duplicate, acestea vor fi modificate corespunzator.

Worksheet: In cazul fisierelor care contin mai multe foi de calcul, se va incarca in mod automat prima foaie de calcul; daca insa se doreste incarcarea alteia, aceasta va fi selectata dintr-o lista derulanta.

Range: Permite specificarea doar a unui domeniu de celule care vor fi incarcate si analizate.

Figura 8.80. Optiuni de deschidere a unei foi de calcul

La incarcarea unei baze de date create in dBASE, avand in vedere ca structura logica a fisierului este foarte asemanatoare cu formatul folosit de SPSS, se aplica automat urmatoarele reguli generale:

numele campurilor este transformat in nume de variabile - cu respectarea regulilor de sintaxa din SPSS; restrictia de baza care se aplica este trunchierea numelor de campuri la 8 caractere, campurile pentru care, in urma acestei operatii, se creeaza nume duplicate fiind eliminate;

inregistrarile marcate pentru stergere in dBASE, dar care nu au fost sterse fizic, sunt incluse in fisierul de date; SPSS creeaza o noua variabila de tip sir de caractere, notata cu D_R, si care contine un asterisc pentru inregistrarile marcate pentru stergere.

Pentru incarcarea unui fisier de tip text se foloseste un program asistent (wizard) de conversie a acestuia, care se initializeaza in urma comenzii File / Read Text Data; problema principala care se ridica in aceasta situatie este tipul de delimitator folosit in fisierul text, care poate fi: Tab, spatiu, virgula, sau chiar alte caractere, precum si delimitatori multipli.

3. Elemente de Analiza Distribuita

O facilitate importanta a mediului de lucru SPSS o constituie analiza distribuita - prin intermediul careia se poate folosi un alt computer decat statia locala de lucru pentru realizarea diferitor procese intens-consumatoare de resurse de calcul. In mod uzual, acest computer este un server, mai performant si mai rapid decat o statie de lucru uzuala, astfel incat folosirea sa reduce in mod semnificativ consumul de timp; analiza distribuita este folosita cu precadere in urmatoarele situatii:

prelucrarea fisierelor de date foarte mari, extrase eventual din baze de date complexe;

necesitatea de a initia procese de calcul mari consumatoare de memorie.

Analiza distribuita se poate folosi numai pentru procesele referitoare la prelucrarea datelor: citire, transformare, calcularea unor variabile noi sau a statisticilor, neputand fi insa folosita pentru editarea rezultatelor (modificarea graficelor, editarea tabelelor pivot, etc.). Pentru a putea profita de avantajele acestui mod de lucru, este necesara nu doar detinerea licentei de utilizare pentru versiunea locala de SPSS, ci si dreptul de acces la o versiune SPSS server, instalata pe serverul care urmeaza a fi folosit de la distanta.

Exista insa si situatii in care analiza distribuita nu reprezinta neaparat o optimizare a lucrului; astfel, in functie de operatia care urmeaza a fi realizata trebuie aleasa maniera adecvata de lucru, ca de exemplu:

pentru accesul la baze de date: selectarea inregistrarilor prin interogari complexe functioneaza mai repede in mod distribuit decat local, in special in cazul in care serverul are putere de calcul mai mare, sau daca baza de date care urmeaza a fi utilizata este implementata chiar pe acel server; de asemeni, in multe situatii practice, administratorul de retea nici nu aloca tuturor utilizatorilor dreptul de a downloada baze de date mari, astfel incat accesul la distanta al acestora constituie singura solutie;

pentru realizarea de calcule laborioase: analizele statistice care presupun realizarea a numeroase calcule matematice, dar in schimb produc rezultate concise (tabele pivot scurte, grafice simple sau putine, rezultate de tip text scurte) sunt cel mai avantajos de realizat in mod de lucru distribuit;

pentru realizarea de calcule simple: procesele care se realizeaza rapid in mod de lucru local, vor rula intotdeauna mai incet in mod de lucru distribuit, datorita timpilor de asteptare inerenti folosirii tehnologiei client / server;

pentru generarea graficelor: graficele case-oriented (de tipul scatterplot, drepte de regresie, etc.) necesita folosirea de date de pe statia locala, astfel incat, in special in cazul bazelor de date mari, modul de lucru distribuit este mai putin performant decat prelucrarea locala, deoarece necesita transferul datelor intre statia locala de lucru si serverul de la distanta; graficele de sinteza, construite pe baza unor rezultate calculate anterior, vor fi generate mai eficient pe servere, in special in cazul in care calculul rezultatelor s-a realizat tot acolo;

tabelele pivot: in special in cazul bazelor mari de date sunt mai greu de realizat in mod de lucru distribuit, datorita transferului de date statie locala - server pe care il necesita;

rezultatele de tip text: cu cat sunt mai ample, cu atat vor fi generate mai greu in mod de lucru distribuit deoarece, dupa generarea lor este necesara copierea pe statia de lucru locala.

4. Tipuri de analize statistice

1. Calculul frecventelor

Procedura Frequencies furnizeaza statistici si rezultate grafice care sunt utile pentru descrierea majoritatii tipurilor de variabile, constituind de obicei prima etapa in orice studiu statistic.

Tabelele si procentajele obtinute furnizeaza o descriere utila a datelor provenite din orice tip de distributie, dar cu precadere a variabilelor calitative, eventual ordinale. Ceilalti parametri de statistica descriptiva se calculeaza de obicei pentru date cantitative (mediana, cuartilele si percentilele), in timp ce media si deviatia standard necesita ca datele sa provina din distributii simetrice sau, in mod ideal, normale.

Pentru a demara analiza frecventelor pentru un fisier de date, se foloseste din menu-ul superior comanda Analyze / Descriptive Statistics / Frequencies, dupa care se vor selecta variabilele ce urmeaza a fi analizate (figura 8.81).

Figura 8.81. Comanda Frequencies - stabilirea variabilelor

Figura 8.82. Frequencies - optiunea Statistics

Optiunea Statistics (figura 8.82) determina calculul unor parametri de statistica descriptiva pentru variabile cantitative: percentilele, masurile valorii centrale (media, mediana, modulul si suma tuturor valorilor), masurile dispersiei (deviatia standard, varianta, rangul, minimul, maximul si eroarea standard a medie), precum si parametrii distributiei (boltirea si simetria), impreuna cu erorile lor standard.

Optiunea Charts (figura 8.83) determina reprezentari grafice pentru distributia de frecvente calculata, de tip Histograma, Bar Chart sau Pie Chart.

Figura 8.83. Frequencies - optiunea Charts

Optiunea Frequencies Format (figura 8.84) permite stabilirea urmatoarelor elemente:

Order by: modul de ordonare a tabelului frecventelor - dupa valorile efective ale variabilelor, sau dupa frecventelor absolute ale acestora, respectiv crescator sau descrescator;

Multiple Variables: in cazul in care se realizeaza tabele de frecvente pentru mai multe variabile, acestea vor putea fi unificate toate intr-un singur tabel, sau vor putea fi separate pentru fiecare variabila in parte;

Suppress tables with more than n categories: aceasta opiiune preintampina generarea de tabele cu un numar mai mare de variabile decat cel specificat prin comanda.

Figura 8.84. Frequencies - optiunea Format

Statisticile calculate folosind comanda Frequencies vor fi afisate ca in exemplul de mai jos:

Statistics

VARSTA

SEX

INALTIME

MEDIU

GREUTATE

N

Valid

Missing

Mean
Std. Error of Mean
Median
Mode
Std. Deviation
Variance
Skewness
Std. Error of Skewness
Kurtosis
Std. Error of Kurtosis
Range
Minimum
Maximum
Sum
Percentiles
Tabelele de frecventa sunt generate dupa cum urmeaza:

SEX

Frequency

Percent

Valid Percent

Cumulative Percent

Valid

F

M

Total

Iar reprezentarile grafice vor avea aspectul din figura 8.85.

Figura 8.85. Exemple de grafice generate folosind comanda Frequencies

2. Calculul parametrilor de statistica descriptiva

Procedura Descriptives (Analyze / Descriptive Statistics / Descriptives) calculeaza parametrii de statistica descriptiva pentru una sau mai multe variabile selectate in prealabil, si ordonate dupa marimea mediilor lor, alfabetic sau in ordinea in care au fost ele selectate (figurile 8.86, 8.87).

Parametrii statistici care pot fi calculati (figura 8.87) sunt identici cu cei disponibili prin comanda Frequencies - optiunea Statistics, iar variabilele corespunzatoare respecta aceleasi restrictii relativ la natura distributiei lor.

 

Figura 8.86. Comanda Descriptives   Figura 8.87. Comanda Descriptives

- selectarea variabilelor - Options

Rezultatele generate sunt dupa modelul tabelului urmator:

Descriptive Statistics

N

Minimum

Maximum

Mean

Std. Deviation

INALTIME
GREUTATE
Valid N (listwise)

3. Tabelarea datelor (crosstabulation)

Figura 8.88. Comanda Crosstabs - selectarea variabilelor

Procedura Crosstabs (Analyze / Descriptive Statistics / Crosstabs) genereaza tabele bi- si multi-dimensionale si furnizeaza de asemeni o varietate de teste si masuri ale asocierii pentru tabelele bidimensionale (figura 8.88).

Structura tabelului si modalitatea de ordonare a categoriilor determina testele sau masurile care vor fi calculate ulterior. Exista de asemeni posibilitatea de a defini un factor de stratificare (variabila de control) pentru tabele bidimensionale, caz in care statisticle si masurile vor fi determinate separat pentru fiecare valoare a factorului de stratificare.

Rezultatele generate sunt dupa modelul tabelului urmator, iar reprezentarile grafice sunt de tipul celei din figura 8.89.

MEDIU * SEX Crosstabulation

SEX

Total

F

M

MEDIU

R

Count

% of Total

U

Count

% of Total

Total

Count

% of Total

Figura 8.89. Exemple de grafice generate folosind comanda Crosstabs

Statisticile care pot fi calculate folosind aceasta comanda sunt:

Chi2: determina coeficientul Chi2 al lui Pearson, testul Fisher si coeficientul Chi2 corectat al lui Yates, care se calculeaza de obicei pentru variabile calitative;

Correlations: in cazul in care ambele variabile din tabel sunt ordinale, se va calcula coeficientul de corelatie al lui Spearman, iar in cazul in care ambele variabile sunt cantitative se va calcula coeficientul de corelatie al lui Pearson, masura a asocierii liniare dintre variabile;

pentru date nominale: se calculeaza coeficientul de contingenta si de nedeterminare, precum si coeficientii Phi, Cramer (V) si Lambda;

pentru date ordinale: se calculeaza coeficientii Gamma, Somers si Kendall;

Kappa: se determina pentru tabele care au aceleasi categorii pe coloane si pe linii;

Risk: pentru tabelele bidimensionale calculeaza riscul relativ si Odds Ratio;

McNemar: este un test neparametric folosit pentru variabile interdependente, care masoara variatiile in raspuns ale acestora, bazate pe distributii Chi2.

Statisticile Cochran si Mantel - Haenszel: sunt folosite pentru a testa independenta intre o variabila - factor binara si o variabila de raspuns de asemeni binara.

4. Analiza mediilor

Procedura Means (Analyze / Compare Means / Means) (figura 8.90) calculeaza mediile pe subgrupuri de valori, si de asemeni statistici univariate pentru variabile dependente, structurate pe categorii dictate de una sau mai multe variabile independente (prin urmare, variabilele dependente trebuie sa fie in mod obligatoriu cantitative, in timp ce variabilele independente trebuie sa fie calitative).

Figura 8.90. Comanda Means - selectarea variabilelor

Principalii parametri statistici care pot fi calculati prin aceasta comanda sunt: suma valorilor, numarul total de cazuri, media, mediana, mediana pe grupuri, eroarea standard a mediei, minimul, maximul, domeniul de valori, deviatia standard, varianta, boltirea, simetria, media geometrica, media armonica, etc. La calculul acestor parametri trebuiesc verificate urmatoarele conditii:

pentru calculul mediei, al deviatiei standard si pentru analiza variantei: variabilele cantitative trebuie sa provina din distributii simetrice;

pentru analiza variantei: valorile trebuie sa provina din populatii cu variante egale, ipoteza care se testeaza folosind testul Levene de omogenitate a variantei (disponibil in procedura One-Way ANOVA).

5. Testele t si ANOVA

Folosind comanda Analyze / Compare Means se pot realiza trei tipuri de teste t:

Testul t pentru esantioane independente: compara mediile unei variabile pentru doua subgrupuri de cazuri; sunt calculate elementele de statistica descriptiva pentru fiecare subgrup, valorile parametrului t pentru variante egale si inegale, intervalul de incredere 95% pentru diferenta mediilor si se poate realiza si testul Levene pentru egalitatea variantelor.

Testul t pentru esantioane pereche: compara mediile a doua variabile pentru un singur grup de cazuri, furnizand statistici descriptive pentru variabilele testate, coeficientul de corelatie intre acestea, testul t si intervalul de incredere 95%.

Testul t pentru un singur esantion: compara media unei variabile cu o valoare cunoscuta sau ipotetica.

Procedura One-Way ANOVA (Analyze / One-Way ANOVA) realizeaza analiza variantei pentru o variabila cantitativa dependenta, in functie de o variabila independenta. Analiza variantei este o generalizare a testului t pentru cazul mai multor esantioane independente, fiind astfel folosita pentru a testa ipoteza ca mai multe medii sunt egale. Pentru a determina de asemeni care medii difera, se mai pot folosi si alte doua tipuri de teste:

a priori contrasts: sunt teste care se realizeaza inainte de a desfasura experimentul;

post hoc tests: sunt teste care se realizeaza dupa ce experimentul a avut loc.

6. Regresia liniara

Procedura Analyze / Regression / Linear (figura 8.91) estimeaza coeficientii dreptei de regresie dintre o variabila independenta si una dependenta, ambele cantitative.

Figura 8.91. Comanda Linear Regression - selectarea variabilelor

Vor fi determinate urmatoarele statistici: numarul de cazuri, media si deviatia standard pentru fiecare variabila, coeficientii de regresie, matricea corelatiilor, corelatiile partiale, coeficientii R si R2, eroarea standard a estimarii, tabelul de analiza a variantei, reziduurile si valorile predictionate, si de asemeni: intervalele de incredere 95% pentru fiecare coeficient de regresie, matricea variantelor si a covariantelor, toleranta, testul Durbin - Watson, masurile distantei (Mahalanobis, Cook). Reprezentarile grafice generate sunt de tipul scatterplot sau histograme.

Pe langa aceste tipuri de analize statistice, in SPSS pot fi realizate si alte proceduri mai performante, de analiza statistica a datelor, cum ar fi:

alte tipuri de regresie, neliniare;

analiza discriminanta;

analiza factoriala;

clasificarea ierarhica;

clasificarea n-medii;

teste neparametrice;

analiza GLM (Generalized Linear Models) univariata, etc.



Politica de confidentialitate | Termeni si conditii de utilizare



DISTRIBUIE DOCUMENTUL

Comentarii


Vizualizari: 2849
Importanta: rank

Comenteaza documentul:

Te rugam sa te autentifici sau sa iti faci cont pentru a putea comenta

Creaza cont nou

Termeni si conditii de utilizare | Contact
© SCRIGROUP 2024 . All rights reserved