Scrigroup - Documente si articole

     

HomeDocumenteUploadResurseAlte limbi doc
AccessAdobe photoshopAlgoritmiAutocadBaze de dateCC sharp
CalculatoareCorel drawDot netExcelFox proFrontpageHardware
HtmlInternetJavaLinuxMatlabMs dosPascal
PhpPower pointRetele calculatoareSqlTutorialsWebdesignWindows
WordXml


Data mining cu Weka - Preprocesarea Datelor

algoritmi



+ Font mai mare | - Font mai mic



Data mining cu Weka -
Preprocesarea Datelor

Cuprins

      Necesitatea preprocesarii datelor



      Etape in preprocesarea datelor

n      Colectarea datelor

n      Descrierea datelor

n      Verificarea calitatii datelor

n      Finalizarea etapei de preprocesare

Necesitatea preprocesarii datelor

      Principalul criteriu pentru asigurarea calitatii rezultatelor unui proces de data mining este asigurarea calitatii datelor

      Calitatea rezultatelor depinde de calitatea datelor introduse in prelucrare

      Datele reale au o calitate scazuta

Exercitiu 1

      Integrarea datelor din 2 surse diferite

n      Fisier excel: ex1_dateBanca.xls

n      Fisier text: ex1_datePers.txt

n      Integrati datele din cele doua fisiere intr-un singur fisier excel

n      Exportati fisierul sub forma csv trasformandu-l ulterior in ".arff"

n      Obs: se considera ca id-ul este unic pentru ambele fisiere

Criterii de selectie a datelor

      Selectati din fisierul de date ex1_sel.txt datele care trebuiesc folosite pentru un proces de data mining care vrea sa realizeze

n      1. analiza si descrierea unor clienti care au carte de credit

n      2. analiza si descrierea unor clase de clienti receptivi la reclame

Criterii de selectie a datelor

      Ce atribute aveti nevoie pentru a face urmatoarele proiecte de DM:

n      fidelitatea clientului: prezicerea momentului cand clientul va parasi compania optand in favoarea concurentei

n      detectarea fraudei: identificarea tranzactiilor cu o probabilitate mare de a fi frauduloase

n      marketing direct: identificarea prospectelor care trebuiesc incluse intr-o lista de expediere pentru a obtine o rata de raspunsuri pozitive cat mai ridicata

n      analiza pachetului de piata: necesitatea de a intelege ce produse sau servicii sunt de obicei achizitionate concomitent

Date inconsistente

      Date inconsistente

n      Pot aparea in special in cazul in care datele au fost integrate din mai multe surse de date

n      Aceste inconsistente trebuiesc eliminate aproprii inceperii prelucrarii datelor

n      Neeliminarea lor duce la aparitia unor valori in plus, incorecte:

      Exercitiu:

n      Depistati datele inconsistente din fisierul

      ex2_ID.xls

      Stabiliti modul de tratare a lor

Date lipsa

      Inlocuirea datelor lipsa din fisierul ex3_DL.xls

n      Identificati valorile lipsa

n      Stabiliti modul de tratare a lor

n      Efectuati corecturile necesare trasformati fisierul in fisier .arff si deschideti-l cu Weka

n      Tratarea datelor lipsa:

      Inlaturarea in intregime a unei inregistrari cu date lipsa

      Inlaturarea in intregime a atributului (coloanei)

      Pastrarea inregistrarii cu date lipsa

      Completarea datelor lipsa

Date cu deviatie mare

      Gasiti valori devinante in setul de date ex4_DA.xls

      OBS: faceti distinctia intre date cu deviatie mare si date aberante

Descrierea datelor

      Uitati-va peste fisierul obj2c.arff

n      Descrieti atributele:

      RecReclame

      CarteCredit

      AchizSpec

      NrProprietati

      Locuinta

      Concluzie: Etapa de descriere a datelor este esentiala pentru finalizarea unui proiect de DM: pe baza acestei descrieri se vor face interpretarile finale

Selectie de fisier reprezentativ

      Faceti o selectie de 25 de linii din fisierul obj2c.arff

      Determinati pentru atributele

n      Varsta

n      Venit

n      Stare civila

      Urmatoarele marimi:

n      Media,

n      mediana,

n      maximul,

n      minimul

      Incarcati in Weka fisierul obj2c.arff si comparati valorile calculate pentru selectia facuta cu cele oferite de Weka pentru intregul fisier.

n      Este selectia facuta de voi reprezentativa pentru intregul set de date?

Exercitiu

      Cautati pe internet fisier ".arff"

n      Descrieti cimpurile prezente

n      Identificati cimpurile necesare intr-o prelucrare

Bibliografie

[1] Bounsaythip, C., si Runsala, R., E., - Overview of Data Minig of Customer Behavior Modeling, Research Report, VTT Information Technology, 2001.

[2] Kirkby, R., - WEKA Explorer User Guide, The University of Waikato, 2002.

[3] Witten, I., H., si Frank, E., - Data minig: Practical machine learning tools and techniques with Java implementations, Ed. Academic Press, New Zeeland, 1999.



Politica de confidentialitate | Termeni si conditii de utilizare



DISTRIBUIE DOCUMENTUL

Comentarii


Vizualizari: 2102
Importanta: rank

Comenteaza documentul:

Te rugam sa te autentifici sau sa iti faci cont pentru a putea comenta

Creaza cont nou

Termeni si conditii de utilizare | Contact
© SCRIGROUP 2024 . All rights reserved