CATEGORII DOCUMENTE |
Data mining cu Weka -
Preprocesarea Datelor
Cuprins
Necesitatea preprocesarii datelor
Etape in preprocesarea datelor
n Colectarea datelor
n Descrierea datelor
n Verificarea calitatii datelor
n Finalizarea etapei de preprocesare
Necesitatea preprocesarii datelor
Principalul criteriu pentru asigurarea calitatii rezultatelor unui proces de data mining este asigurarea calitatii datelor
Calitatea rezultatelor depinde de calitatea datelor introduse in prelucrare
Datele reale au o calitate scazuta
Exercitiu 1
Integrarea datelor din 2 surse diferite
n Fisier excel: ex1_dateBanca.xls
n Fisier text: ex1_datePers.txt
n Integrati datele din cele doua fisiere intr-un singur fisier excel
n Exportati fisierul sub forma csv trasformandu-l ulterior in ".arff"
n Obs: se considera ca id-ul este unic pentru ambele fisiere
Criterii de selectie a datelor
Selectati din fisierul de date ex1_sel.txt datele care trebuiesc folosite pentru un proces de data mining care vrea sa realizeze
n 1. analiza si descrierea unor clienti care au carte de credit
n 2. analiza si descrierea unor clase de clienti receptivi la reclame
Criterii de selectie a datelor
Ce atribute aveti nevoie pentru a face urmatoarele proiecte de DM:
n fidelitatea clientului: prezicerea momentului cand clientul va parasi compania optand in favoarea concurentei
n detectarea fraudei: identificarea tranzactiilor cu o probabilitate mare de a fi frauduloase
n marketing direct: identificarea prospectelor care trebuiesc incluse intr-o lista de expediere pentru a obtine o rata de raspunsuri pozitive cat mai ridicata
n analiza pachetului de piata: necesitatea de a intelege ce produse sau servicii sunt de obicei achizitionate concomitent
Date inconsistente
Date inconsistente
n Pot aparea in special in cazul in care datele au fost integrate din mai multe surse de date
n Aceste inconsistente trebuiesc eliminate aproprii inceperii prelucrarii datelor
n Neeliminarea lor duce la aparitia unor valori in plus, incorecte:
Exercitiu:
n Depistati datele inconsistente din fisierul
ex2_ID.xls
Stabiliti modul de tratare a lor
Date lipsa
Inlocuirea datelor lipsa din fisierul ex3_DL.xls
n Identificati valorile lipsa
n Stabiliti modul de tratare a lor
n Efectuati corecturile necesare trasformati fisierul in fisier .arff si deschideti-l cu Weka
n Tratarea datelor lipsa:
Inlaturarea in intregime a unei inregistrari cu date lipsa
Inlaturarea in intregime a atributului (coloanei)
Pastrarea inregistrarii cu date lipsa
Completarea datelor lipsa
Date cu deviatie mare
Gasiti valori devinante in setul de date ex4_DA.xls
OBS: faceti distinctia intre date cu deviatie mare si date aberante
Descrierea datelor
Uitati-va peste fisierul obj2c.arff
n Descrieti atributele:
RecReclame
CarteCredit
AchizSpec
NrProprietati
Locuinta
Concluzie: Etapa de descriere a datelor este esentiala pentru finalizarea unui proiect de DM: pe baza acestei descrieri se vor face interpretarile finale
Selectie de fisier reprezentativ
Faceti o selectie de 25 de linii din fisierul obj2c.arff
Determinati pentru atributele
n Varsta
n Venit
n Stare civila
Urmatoarele marimi:
n Media,
n mediana,
n maximul,
n minimul
Incarcati in Weka fisierul obj2c.arff si comparati valorile calculate pentru selectia facuta cu cele oferite de Weka pentru intregul fisier.
n Este selectia facuta de voi reprezentativa pentru intregul set de date?
Exercitiu
Cautati pe internet fisier ".arff"
n Descrieti cimpurile prezente
n Identificati cimpurile necesare intr-o prelucrare
Bibliografie
[1] Bounsaythip, C., si Runsala, R., E., - Overview of Data Minig of Customer Behavior Modeling, Research Report, VTT Information Technology, 2001.
[2] Kirkby, R., - WEKA Explorer User Guide, The
[3]
Politica de confidentialitate | Termeni si conditii de utilizare |
Vizualizari: 2086
Importanta:
Termeni si conditii de utilizare | Contact
© SCRIGROUP 2024 . All rights reserved