Scrigroup - Documente si articole

     

HomeDocumenteUploadResurseAlte limbi doc
AgriculturaAsigurariComertConfectiiContabilitateContracteEconomie
TransporturiTurismZootehnie


DEFINIREA SIAD - SIAD tipuri

Economie



+ Font mai mare | - Font mai mic



DEFINIREA SIAD

Sistemul informatic pentru asistarea deciziei (SIAD) este sistemul informatic al carui obiectiv este, in general, asistarea procesului managerial si, in particular, asistarea procesului de adoptare a deciziilor.

Pentru procesul decizional structurat si pentru cel semistructurat se pot folosi



-modelele cantitative bazate pe metode

modele ale cercetarii operationale.

Automatizarea totala sau partiala a procesului de adoptare a deciziei si consta in urmatorii pasi:

descrierea si definirea problemei;

gasirea categoriei din care face parte problema;

elaborarea unui model matematic care sa se plieze cel mai bine pe descrierea problemei;

alegerea solutiei.

Procesul de automatizare totala sau partiala a procesului de adoptare a deciziei este centrat pe modelare.

Modelarea inseamna transpunerea unui caz din universul real intr-o structura artificiala denumita model.

SIAD tipuri

Sistemele de asistare a deciziei orientate pe date ce se gasesc in depozitul de date al organizatiei economice.

Sistemele de asistare a deciziei orientate pe date functioneaza pe baza analizei si agregarii datelor si au ca functii accesul imediat la date, dispun de un mecanism pentru analiza imediata a datelor, creeaza statistici.

Sistemele de asistare a deciziei orientate pe date sunt rezultatul crearii unor tehnologii speciale cum sunt:

depozitarea unor volume enorme de date istorice ale organizatiei (Data Warehousing);

exploatarea acestor depozite de date prin procesare analitica on-line (OLAP, OnLine Analytical Processing).

Sistemele de asistare a deciziei orientate pe date ce se gasesc in depozitul de date al organizatiei economice.

Sistemele informatice de lucru cu cunostinte, KWS (Knowledge Work System) sunt expresia suportului cognitiv al procesului de adoptare a deciziilor. Suportul cognitiv inglobeaza cunostintele si experienta decidentului precum si capacitatea acestuia de rationament.

Sistemele informatice de asistare inteligenta a deciziei sunt SIAD-uri bazate pe cunostinte (contin baze de cunostinte).

SIAD Clasificare

Dupa gradul de analiza a datelor

-SIAD-uri care au la baza modele

SIAD-uri bazate pe date

SIAD-uri bazate pe cunostinte

Holsapple si Whinston

SIAD-uri bazate pe analiza textelor;

SIAD-uri cu baze de date

SIAD-uri cu procesoare de tabele

SIAD-uri bazate pe functii

SIAD-uri bazate pe reguli

SIAD-uri de grup (Groupware) ca tip de suport al deciziilor pentru un grup de decidenti ale caror decizii au o pondere insemnata in luarea deciziilor intr-o organizatie. Scopul utilizarii unor astfel SIAD-uri este cresterea calitatii procesului decizional datorita lucrului in echipa precum si cresterea gradului de creativitate al grupului.

Sistemele suport de asistare a deciziei (SSAD) creeaza mediul necesar SIAD-urilor.

FUNCTIILE SIAD

-gestiunea datelor

-gestiunea modelelor

-gestiunea cunostintelor

gestiunea comunicarii intre utilizator si sistem si intre date si modele, cunostinte.

Arhitectura sistemelor suport pentru SIAD

-subsistemul de gestiune a datelor;

subsistemul de gestiune a modelelor;

subsistemul de gestiune a cunostintelor;

subsistemul de gestiune a dialogului (sau interfata cu utilizatorul).

Subsistemul de gestiune a datelor

are urmatoarele componente:

a) baza de date

b) SGBD (de regula, relational);

c) dictionarul de date (Data Dictionary)

d) facilitatile de integrare a datelor

Subsistemul de gestiune a modelelor

are urmatoarele componente:

a) modelele (biblioteca de modele);

b) sistemul de gestiune a modelelor;

c) dictionarul (catalogul) de modele;

d) procesul de executie si integrare a modelelor.

Subsistemul de gestiune a cunostintelor are in compunerea sisteme expert.

Subsistemul de dialog cu utilizatorul sau interfata ce este o componenta care asigura interactivitatea SIAD.


SIAD-URI BAZATE PE MODELE

Partea I

12 Martie 2008

2.1. MODELE SI METODE

Un SIAD foloseste un set de modele ca instrumente de analiza.

Modelare =concepere a problemei si abstractizare in expresii cantitative sau calitative

modelarea euristica - metoda de rezolvare a acelor probleme care nu se pot rezolva prin metode analitice.

Modelul ofera un mod simplificat sau abstractizat de abordare a realitatii:

lSimplificarea rezulta din faptul ca problemele din lumea reala sunt mult prea complicate, iar unele aspecte ale acestei realitati nu sunt intotdeauna relevante

lGradul de abstractizare al unui model este dat de mai multe criterii, dupa care se va face si clasificarea lor

In functie de gradul de abstractizare, se deosebesc:

lModele iconice (ex.foto)

lModele analogice (ex.diagrame)

lModele cantitative (matematice)

Structura unui model:

1.Variable de decizie (Vd) - descriu actiuni alternative posibile

2. Parametrii (P) - restrictii ale problemei; nu pot fi controlati de decident; influenteaza rezultatul

3.Variable rezultat (Vr) - variabile dependente de variabilele de decizie si de parametri

EXEMPLE DE MODELE CU COMPONENTE DE STRUCTURA (1)

Contabilitate:

Vd: PC, Program de audit

P:    IT&C, Dispozitii legale

Vr: Cost procesare date, Grad eroare

Marketing:

Vd: Buget publicitate, Moment oportun

P: Venituri consumatori, Politici concurenti

Vr: Satisfactie consumator, Cota de piata

Productie:

Vd: Cantitate produse, Nivel stocuri

P:    Capacitate productie, Preturi materii prime, Tehnologie

Vr: Cost total, Nivel calitativ, Satisfactie angajati

Investitii financiare:

Vd: Nivel investitii, Alternative, Durata investitie, Momentul investitiei

P:    Rata inflatiei, Rata dobanzii, Concurenta

Vr: Profit asteptat, Rentabilitate, Risc, Nivel lichiditati

MODELE

TABEL NR.2.1.

CLASA DE MODELE

OBIECTIVE

METODE SPECIFICE

DE REZOLVARE

OPTIMIZARE PROBLEME CU ALTERNATIVE PUTINE

GASIRE SOLUTIE OPTIMA

TABELE DE DECIZIE

ARBORI DE DECIZIE

OPTIMIZARE CU ALGORITM

GASIRE SOLUTIE OPTIMA PRIN PROCES ITERATIV

PROGRAMARE LINIARA

OPTIMIZARE CU FORMULE

GASIRE SOLUTIE OPTIMA PRIN PAS UNIC

MODELE DE STOCURI

SIMULARE

GASIRE SOLUTIE OPTIMA PRIN EXPERIMENT ALTERNATIVE POSIBILE

SIMULARI DE DIFERITE TIPURI

EURISTICI

GASIRE SOLUTIE SATISFACATOARE PE BAZA DE REGULI

PROGRAMARE EURISTICA

SISTEME EXPERT

MODELE PREDICTIVE

PREVIZIUNE PE BAZA DE SCENARIU

MODELE DE PREVIZIUNE

ANALIZA MARKOV

2. . TABELE DE DECIZIE SI ARBORI DE DECIZIE

Actul de decizie care presupune un numar relativ finit si rezonabil de alternative se poate modela prin analiza decizionala.

ANALIZA DECIZIONALA utilizeaza tabelele de decizie care caracterizeaza actiunea decizionala si contine:

STARI GENERALE care sunt date de totalitatea conditiilor in care se desfasoara evenimentul de analizat;

ALTERNATIVE DECIZIONALE ce determina modul de realizare a unei actiuni independente de vointa decidentului;

CONSECINTE DECIZIONALE ce sunt rezultatul actiunii conjugate a starii generale, criteriilor decizionale si alternativelor

In cazul TABELELOR DE DECIZIE, conditia este ca numarul de consecinte sa fie mai mare sau egal cu numarul de criterii

Nr.Consecinte >= Nr.CRITERII

In cazul problemelor de decizie multicriteriala in conditii de risc, in care se cunosc probabilitatile de realizare a fiecarei stari, solutia optima este data de (p - probabilitatea, u - utilitatea):

Sopt=SUM pij*u(xj)

Daca problema de decizie multicriteriala este in conditii de incertitudine solutia optima va fi data urmand una dintre reguli:

1. Criteriul WARD (al prudentei) ce presupune ca nu se admite sub nici o forma riscul. Se determina solutia cea mai slaba pentru fiecare varianta si se alege aceea care duce la cel mai bun rezultat (ales dintre rezultatele slabe).

2. Criteriul SAVAGE sau regula regretului care foloseste conceptul de "regret economic"* ce rezulta din faptul ca nu s-a ales varianta buna. Se compara apoi fiecare ipoteza cu o singura alternativa si se alcatuieste o matrice a regretelor, obtinuta din scaderea fiecarei stari din variabila maxima. Apoi se rezolva problema de minim-maxim.

3. Criteriul Laplace in care toate starile se considera a fi echiprobabile si se alege acea varianta pentru care speranta matematica a efectului economic este maxima.

4. Criteriul Hurwicz ce presupune calculul unui indicator decizional ca medie ponderata a rezultatelor extreme. Se noteaza cu α coeficientul de optimizare considerat de decident, iar acesta poate avea valori cuprinse intre 0 si 1:

Di= *Mi+(1- )*mi

Cu ajutorul arborilor de decizie se pot reprezenta tabelele de decizie prin evidentierea grafica a relatiilor dintre variabilele problemei.

2.3. OPTIMIZARE CU ALGORITMI - PROGRAMARE MATEMATICA

Programarea liniara impune anumite reguli pe care decidentul trebuie sa le respecte:

-set de variabile masurabile;

-set de restrictii cu aceste variabile;

-functie obiectiv

fo=MAX sau MIN functie LINIARA (Vd,Vr)

-legaturilor intre elemente =ecuatii

Modelul unei probleme de programare liniara: determinarea unui min sau max pentru functia obiectiv care depinde de una sau mai multe variabile care satisfac restrictiile modelului (conditii implicite) sau care se refera la valorile ce pot fi luate de variabile (conditii explicite)

Majoritatea problemelor sunt de programare liniara multidimensionala, ca de exemplu:

-metoda utilitatii globale

-metoda P.O.P.

-metoda STEM

Tema2:
SIAD-URI BAZATE PE MODELE

Partea a-II-a

19 Martie 2008

2.3. OPTIMIZARE CU ALGORITMI - PROGRAMARE MATEMATICA

Majoritatea problemelor sunt de programare liniara multidimensionala, ca de exemplu:

metoda utilitatii globale

metoda P.O.P.

metoda STEM

Metoda utilitatii globale in care problema de programare liniara este luata drept o problema de decizie multidimensionala.

Metoda P.O.P. - algoritmul care descrie aceasta metoda presupune o ordonare a solutiilor in functie de criterii de preferinta definite de decident

Metoda STEM - consta in definirea unei functii obiectiv de sinteza cu coeficienti care vor fi atasati fiecarui criteriu.


Modelul de programare liniar
a

In forma standard toate restrictiile sunt ecuatii, iar variabilele sunt >=0:

In forma canonica toate restrictiile sunt concordante si toate variabilele sunt>=0:

In forma canonica toate restrictiile sunt concordante si toate variabilele sunt>=0:

Aceste probleme se rezolva cu algoritmul SIMPLEX (Dantzing, 1951) care este de fapt iterativ, la fiecare pas se obtine o imbunatatire a solutiei, oferind:

solutia admisibila ce satisface doar conditiile explicite sau

solutia optima.

EXEMPLE DE TESTE GRILA LA TEMELE 1 SI 2

Modelul ofera un mod simplificat sau abstractizat de abordare a realitatii.

R. Adevarat (True)

Principala caracteristica a SIAD pe baza de modele este modelarea analitica.

R. Fals (False)

In analiza decizionala, numarul de consecinte trebuie sa fie mai mare sau egal cu numarul de criterii.

R. Adevarat (True)

Care dintre urmatoarele subsisteme nu face parte din arhitectura unui sistem suport pentru SIAD (SSAD)? R. d,e.

a) subsistemul de gestiune a datelor;

b) subsistemul de gestiune a modelelor;

c)    subsistemul de gestiune a cunostintelor;

d) subsistemul de gestiune a sabloanelor;

e) subsistemul de gestiune a parametrilor;

f)    subsistemul de gestiune a dialogului

Gradul de abstractizare al unui model este dat de mai multe criterii, dupa care se face si clasificarea lor: R.c.

a) modele iconice, modele calitative, modele cantitative (matematice);

b) modele statistice, modele analitice, modele cantitative (matematice);

c) modele iconice, modele analitice, modele cantitative (matematice);

d) modele calitative, modele statistice, modele cantitative (matematice);

e) modele iconice, modele analitice, modele calitative (matematice).

Care dintre metodele prezentate mai jos nu apartin programarii liniare multidimensionale? R.c,d.

a) metoda utilitatii globale

b) metoda P.O.P.

c) metoda R.O.S.

d) metoda de rafinare imediata a datelor

e) metoda STEM

Se pot aplica metode analitice pentru probleme de gestiune a __________________sau de alocare a resurselor.

R. stocurilor

2.4 SIMULAREA

Prin simulare se imita ceea ce se intampla in realitate.

Gradul de simplificare oferit de simulare este mult mai mic decat in cazul modelelor traditionale.

Simularea reprezinta o metoda descriptiva, deci nu exista o procedura prin care sa se obtina o solutie optima.

Simularea este o metoda experimentala.

Prin simulare se pot descrie doar caracteristicile si comportamentul sistemului in diferitele etape ale functionarii sale.

Pasii unui proces de simulare sunt:

definirea problemei - consta in stabilirea categoriei in care se poate incadra problema;

2.obtinerea modelului de simulare ce consta in stabilirea variabilelor si a relatiilor dintre ele;

testarea si validarea modelului ce presupune de fapt legatura dintre modelul de simulare si realitatea simulata;

modelul de efectuare a experimentelor care stabileste perioada de simulare si limitele de lucru;

evaluarea experimentelor ce consta in interpretarea rezultatelor obtinute prin aplicarea diverselor variante de simulare cu ajutorul metodelor oferite de statistica sau prin analogie;

6. implementarea rezultatelor simularii care are ca efect o implicare mai mare a decidentilor dacat in cazul modelarii traditionale.

AVANTAJELE SIMULARII sunt:

1)modelul este obtinut de obicei din perspectiva decidentului;

este unica metoda din cadrul SIAD care se poate utiliza pentru problemele nestructurate

3)surprinde complexitatea reala a problemei ;

4)se poate aplica unor mari diversitati de probleme manageriale.

DEZAVANTAJELE SIMULARII sunt:

1)NU GARANTEAZA obtinerea solutiei optime ci a unei solutii imbunatatite;

2)modelul de simulare este aplicat doar pentru o singura problema, neputand fi generalizat.

2.5 MODELELE PREDICTIVE

Modelele predictive au ca scop anticiparea evolutiei viitoare a sistemului economic considerat in functie de evolutiile sale anterioare.

Legatura dintre variabile este denumita corelatie, iar stabilirea tipului de legatura dintre variabilele dependente de una sau mai multe variabile independente, in statistica, se numeste analiza de regresie.

Dependenta dintre variabile poate fi liniara, exponentiala sau patratica, iar pentru fiecare tip de dependenta exista instrumente puse la dispozitie de statistica pentru a determina elementele modelului de regresie corespunzator.

Etapele de realizare a unui model de regresie:

analiza pentru identificarea dependentelor si a tipurilor de legaturi pe care le exprima;

2. specificarea prin care se cauta cea mai optima forma de exprimare a variabilelor;

estimarea parametrilor modelului;

testarea semnificatiei parametrilor estimati;

validarea (verificarea) modelului;

6. utilizarea modelului in operatii de simulare si predictie.

METODA DE SIMULARE MONTE CARLO

Metoda de simulare Monte Carlo (a experimentarilor statistice) consta in modelarea variabilelor aleatoare pentru a obtine caracteristicile distributiilor de probabilitate.

Metoda Monte Carlo sta la baza procedeelor de generare a proceselor stochastice sau de cautare a unor puncte in domeniu.

Rezultatele obtinute prin utilizarea metodei Monte Carlo se refera la evaluari si ierarhizari care fundamenteaza o decizie economica.

Metoda Monte Carlo se aplica in domeniile:

Procese de stocare complexe, unde ritmul de aprovizionare este aleator sau sezonier, suprafata de depozitare este limitata, sunt penalizari pentru lipsa de stoc sau in conditiile in care nu este posibila o modelare clasica prin teoria stocurilor;

Procese de asteptare in care evenimentele se interconditioneeaza, iar rezolvarea lor prin modele de asteptare este practic imposibila;

Procese de repartitie care se analizeaza in legatura cu activitatea de productie si cu cea de investitii.

Metoda Monte Carlo

Date initiale:

structura graficului retea

repartitia duratelor

3) tipul de repartitie.

PRELUCRARI: Simularea aplicarea algoritmului de calcul al drumului critic pentru un numar suficient de mare de generari ale duratelor activitatilor.

Rezultate:

estimarea parametrilor repartitiei

estimarea duratei totale

determinarea frecventei caracterului critic pentru orice activitate in parte.

Problema principala rezolvata prin metoda Monte Carlo consta in estimarea valorii medii a unei variabile aleatoare in functie de o eroare admisibila si o probabilitate data.

Se construieste prin experiment statistic imaginea unor procese si astfel se impune ca variabilele aleatoare care intervin sa fie estimate cu o abatere cat mai mica in probabilitate in raport cu variabilele considerate a fi reale.

Ca urmare, este necesara constructia unor estimatoare satisfacatoare (de exemplu, media aritmetica m - simpla sau ponderata - pentru variabile aleatoare cu distributie normala).

Calitatea esantionului se poate aprecia prin teste de concordanta care masoara apropierea repartitiei empirice de repartitia teoretica.

Testele de concordanta se pot baza pe unul dintre criteriile Kolmogorov, Smirnov sau Pearson.

La un numar mic de experimente, intervalul de incredere pentru variabila aleatoare este mare.

Ca urmare, este de preferat considerarea unui numar mare de experimente, situatie in care valorile obtinute pentru variabila aleatoare sunt situate in jurul valorii medii pe un interval mic.

Instrumentul informatic QM (Quantitative Analysis for Management) contine modulul Simulation Monte Carlo prin care pot fi rezolvate diverse probleme de asistare a deciziei economice.

METODE DE SIMULARE IN EXCEL

A. Simularea cu ajutorul diagramelor

In Excel, diagramele pot fi utilizate pentru simulare prin exploatarea proprietatii de biunivocitate care exista intre schimbarea locatiei punctelor pe diagrama prin tehnica "drug-and-drop" efectuata cu mouse-ul si modificarea valorii datelor corespunzatoare din tabelul cu date.

B. Simularea cu ajutorul tabelelor

Tabelul de simulare din Excel reprezinta o zona de celule ce indica rezultate obtinute ca urmare a substituirii unor valori din formule definite in prealabil de utilizator. Se pot obtine:

Tabele de simulare cu o singura variabila de intrare;

Tabele de simulare cu doua variabile de intrare.

In cazul tabelelor de simulare cu o singura variabila de intrare, daca se introduce un set de valori pentru variabila de intrare, se poate astfel pune in evidenta influenta pe care o are aceasta modificare de valori intr-una sau mai multe formule.

2)In cazul tabelelor de simulare cu doua variabile de intrare, se aplica seturi de valori pentru cele doua variabile si se pune in evidenta efectul modificarilor asupra unei singure formule.

C. Scenariul

Scenariul serveste pentru realizarea previziunilor asupra unui proces economic prin compararea seturilor de valori care conduc la rezultate diferite.

In instrumentul Microsoft Excel, scenariul (Scenario) reprezinta o multime de valori pe care acesta le poate substitui automat intr-o foaie de calcul. Cu ajutorul scenariului se obtin simulari ale mai multor variante ale unui proiect, variante care au valori diferite ale parametrilor si rezultate diferite.

Etapele de rezolvare a unei probleme in Microsoft Excel cu Scenarios sunt urmatoarele

1) se definesc celulele modificabile cu succesiunea de comenzi: Insert->Name->Define;

2) se selecteaza celulele modificabile semnificative pentru rezultatul asteptat al problemei de rezolvat;

3) se activeaza managerul de scenarii cu succesiunea de comenzi: Tools->Scenarios.

4) cu ajutorul butonului Add din caseta de dialog Scenario Manager se introduc varianta pesimista si varianta optimista a scenariului;

5) in rubrica Scenario Name a casetei Add Scenario se introduce numele scenariului;

6) se introduc adresele celulelor modificabile in caseta rubricii Changing Cells; OK;

7) se introduc valorile corespunzatoare scenariului optimist in caseta Scenario Values;

8) se apasa butonul Add pentru a introduce un alt scenariu pesimist sau se revine la managerul de scenarii cu OK;

9) se introduc valorile corespunzatoare celui de-al doilea scenariu pesimist (se scrie numele in caseta Add Scenario si se completeaza valorile celulelor modificabile in caseta Scenario Values);

10) cu Scenario Manager se vizualizeaza alternativ variantele simulate (butonul Show).

Tema cu tabele in excel

Tema3:
SIAD-uri BAZATE PE ANALIZA SI SINTEZA DATELOR
Partea I

09 aprilie 2008

DEPOZITE DE DATE (DATA WAREHOUSING)

Necesitatea depozitelor de date este data de volumul imens de date acumulat in timp de companii.

SIAD-urile care au la baza analiza si sinteza datelor

-realizeaza comasarea, sistematizarea, corelarea si gruparea datelor pentru a obtine informatii care sa reliefeze factorii care influenteaza pozitiv sau negativ performantele companiei.

-permit adoptarea unei strategii de ameliorare a factorilor cu influenta negativa asupra organizatiei.

-Obtinerea rezultatelor, sub forma de rapoarte care contin informatii utile factorilor de decizie sunt intr-o forma accesibila si sunt rezultatul tehnicilor speciale de explorare a masivelor de date.

-Aceste tehnici duc la evidentierea unor corelatii intre date, pot face estimari si prognoze precum si sa atraga atentia asupra unor disfunctii.

DEPOZITE DE DATE (DATA WAREHOUSE)

Caracteristicile acestor structuri este faptul ca ele pot inmagazina volume mari de date preluate din arhive si/sau din bazele de date ale aplicatiilor informatice specifice activitatii curente a intreprinderii (sunt volume de ordin 10 LA PUTEREA 12 terabytes).

Exploatarea acestor volume uriase de date este asigurata de existenta unor motoare speciale care dau posibilitatea ca masivele sa poata fi interogate, precum si existenta unor servicii speciale de analiza on-line a datelor (OLAP).

Suporturile software sustin performantele prin transformarea datelor, corelarea si completarea lor precum si prin crearea dictionarului de date, toate acestea asigurand accesul la structurile primare.

Datele sunt extrase din baze de date eterogene create de sistemele informatice deja existente in companie pe diversele platforme hard si soft.

Prin aplicatii speciale si SGBD se asigura au ajutorul unor servicii de integritate, stocarea si lucrul in conditii de siguranta maxima.

DEZAVANTAJELE DEPOZITELOR DE DATE (DATA WAREHOUSE)

1.timpul mare necesar exploatarii lor

2.aglomerarea motorului bazei de date cu task-uri de centralizare care incetineste astfel tranzactiile curente.

DATA MARTS

Datele se pot inmagazina pe domenii sau activitati specifice departamentelor unei organizatii in asa numitele magazii sau rafturi de date (Data Marts)

Constructia depozitului de date

Depozitul de date se construieste progresiv adica el permite completari si dezvoltari ulterioare.

DEPOZITE DE DATE

nPentru a se asigura o calitate sporita a datelor acestea sunt supuse unui proces de curatire si transformare, mentionand si modul de obtinere a unor date colectate pe baza celor existente, acest proces ducand la micsorarea timpului de raspuns pentru obtinerea unor rapoarte finale.

nIn depozitele de date se face transformarea codurilor in date explicite precum si integrarea datelor din nomenclatoare in datele referitoare la tranzactii. Acesta este numit si proces de denormalizare si este caracterizat de faptul ca nu modifica integritatea datelor si grabeste procesul de regasire.

IMPORTANT !!!

Intr-un depozit de date redundanta datelor este permisa.

Diferentele dintre depozitul de date si baza de date

A) datele continute de un sistem de prelucrare a tranzactiilor, OLTP (On-Line Transaction Processing) sunt de tip operational, iar datele continute de un depozit de date sunt specifice asistarii deciziilor, sunt date centralizate sau derivate din date operationale, nu se modifica in timp si sunt destinate utilizatorilor finali;

B) in cazul sistemelor tranzactionale, performantele se refera la integritate, confidentialitate, siguranta si timp de raspuns intrucat un numar mare de utilizatori introduc date in sistem, in timp ce in cazul SIAD (deci a depozitelor de date) numarul de utilizatori finali (manageri) este foarte mic.

Ca urmare, securitatea si siguranta in exploatare nu sunt supuse unor riscuri majore, procedurile de salvare si restaurare fiind mai putin utilizate decit in cazul sistemelor tranzactionale.

C) datele procesate in sistemele tranzactionale sunt in seturi relativ mici, introduse recent si compact, astfel incat prelucrarea se face destul de rapid. In procesele decizionale, datele necesare acestora sunt in volum mare, stocate dispersat ceea ce duce la o prelucrare mai lenta;

D) Bazele de date construite pentru sisteme tranzactionale sunt proiectate si realizate pe baza unor cerinte cunoscute si certe, modificarile care intervin datorita adaptarii sistemului la schimbarile intervenite reiau anumite faze ale ciclului de viata. Dar odata implementate ele functioneaza perioade lungi de timp fara modificari

In SIAD cerintele sunt cunoscute doar partial in momentul proiectarii si realizarii lor, ceea ce obliga depozitul de date sa se adapteze din mers cerintelor.

Datele gestionate pentru sisteme tranzactionale sunt privite ca un intreg, pe cand cele din depozitele de date sunt organizate pe sectiuni deoarece ele sunt organizate in functie de subiectul de analiza.

E) Sistemele tranzactionale reflecta de obicei fluxul datelor din activitati curente, pe cand depozitele de date sunt orientate pe subiecte cum ar fi de exemplu: resurse, produse, clienti, furnizori.

DEFINITIA DEPOZITULUI DE DATE

Depozitul de date (Data Warehouse) este o colectie de date orientate pe subiecte, integrate, corelate in timp si non-volatile care sprijina decizia.

PROIECTAREA DEPOZITULUI DE DATE

Proiectarea structurii depozitului de date se face prin modelare multidimensionala, structura implementandu-se ca o baza de date care asigura stocarea unui volum mare de date si un acces rapid la ele, asa numitele baze de date client/server.

DEPOZITUL DE DATE

Pe parcursul existentei sale, un depozit de date este incremental si ciclic.

Etapele ciclului de viata al unui depozit de date sunt:

proiectare

2.populare

3.exploatare

Aceste etape sunt asistate de un soft specializat de la browsere si generatoare de rapoarte pana la instrumente specifice Data Mining .

O schema

Tema3:
SIAD-uri BAZATE PE ANALIZA SI SINTEZA DATELOR Partea a-II-a
14 aprilie 2008

DEPOZITE DE DATE (DATA WAREHOUSING)

3.4. Modelarea conceptuala a depozitului de date

In etapa de conceptie a unui depozit de date se folosesc modele dimensionale care grupeaza datele din tabelele relationale in scheme de tip stea sau fulg de zapada.

In aceste scheme pot fi regasite date cantitative cum ar fi cantitati sau valori sau grupate dupa diverse alte criterii (pe client, pe produs, pe tipuri de servicii etc.).

Datele cantitative din bazele de date dimensionale sunt de tip medii, numar de tranzactii, centralizari dupa anumite caracteristici, totaluri si reprezinta masuri ale activitatii.

Criteriile de agregare sunt denumite dimensiuni. Masurile identificate prin dimensiuni sunt stocate intr-o tabela relationala care este denumita tabela de fapte, iar codurile utilizate sau asociate criteriilor de agregare sunt date de tabelele de tip nomeclator asociate fiind cu tabelele de fapte si in acest fel schema relationala este de tip stea.

- Daca se reunesc mai multe scheme de tip stea care utilizeaza aceleasi nomenclatoare se formeaza un model tip constelatie.

- Daca nomenclatoarele se pot divide in subnomenclatoare atunci exista o dependenta intre acestea.

- Pentru acelasi cod pot exista mai multe nomenclatoare alternative. Daca se integreaza aceste subdimensiuni si dimensiuni alternative, se creeaza o schema sub forma de fulg de zapada.

Schemele de tip stea, fulg de nea sau constelatie sunt modele conceptuale multidimensionale ale depozitelor de date, avand ca rol organizarea datelor pe subiecte, organizare necesara procesului de decizie. Schema este deschisa, adica ea se poate modifica pe tot parcursul vietii depozitului de date.

3.5. Modul de utilizare a depozitului de date

Depozitele de date contin structuri unice, integrate si cumulative necesare procesului de decizie.

Administratorul depozitului de date are ca principala sarcina stabilirea accesului partajat al categoriilor de manageri prin asigurarea de parole si drepturi de acces.

Datele din depozit sunt accesate selectiv de manageri in functie de necesitatile acestora. In acest fel se creaza colectii specializate pe diverse domenii care se numesc magazii (rafturi) de date (Data Marts).

Magaziile de date se pot utiliza si ca structuri intermediare pentru colectarea datelor din surse primare si al caror continut este descarcat periodic in depozitul de date.

Depozitele de date pot lua nastere si printr-o stocare exhaustiva a datelor din sistemele tranzactionale in vederea aplicarii tehnologiei Data Mining.

Utilizarea tehologiei Data Mining presupune ca procesarea datelor se face fara interventia utilizatorilor, in background, iar rezultatele sunt pastrate pentru a fi consultate ulterior la cerere.

3.6. Mediul de depozitare al datelor

Mediul in care se contruieste si se exploateaza un depozit de date contine urmatoarele elemente:

-surse de date tranzactionale

-instrumente de proiectare-dezvoltare,

-instrument de extractie si transformare a datelor,

-sistemul de gestiune al bazei de date

-instrumente de acces si analiza a datelor si

- instrumente de administrare

Toate componentele enumerate sunt integrate pe o platforma Microsoft in mediul de lucru Data Warehousing Framework. Acest mediu de lucru ofera asistarea proiectarii, implementarii si administrarii depozitelor de date pe durata vietii (existentei) acestuia.

Data Warehousing Framework ofera o arhitectura care se poate integra relativ simplu cu produse ce provin de pe alte platforme, asigura sevicii de import-export cu validare si transformarea datelor, asigura metadate integrate pentru proiectarea depozitului si gestioneaza suportul, task-uri si evenimente.

Pentru ca un depozit de date sa poata fi procesat este necesara existenta unui set specializat de instrumente pentru

ndescrierea fizica si logica a surselor de date, a depozitelor sau a magaziei de date in care acestea urmeaza sa fie incorporate;

nvalidarea, curatirea si transformarea datelor care urmeaza a fi stocate in depozitul de date;

nutilizatorii finali.

Aceste instrumente permit acestora accesul la datele stocate in depozitul respectiv.

3.7. Definirea si caracterizarea OLAP (On-Line Analytical Processing

Tehnologia OLAP se bazeaza pe 11 principii formulate de Ted Codd (1992). Acestea sunt:

1. abordarea conceptuala multdimensionala a datelor;

2. asigurarea unei transparente sporite prin existenta unei arhitecturi deschise a sistemului;

3. accesibilitatea asigurata utilizatorului prin asistarea implicarii acestuia in modalitatile tehnice de furnizare a datelor;

4. complexitatea dimensionala a analizei ofera performante stabile;

5. utilizarea arhitecturii client-server, unde server-ul are ca scop omogenizarea datelor;

6. posibilitatea de a efectua aceleasi operatii asupra tuturor dimensiunilor si care poarta numele de prelucrare generica a dimensiunilor;

7. gestionarea dinamica a matricilor incrucisate prin facilitatea de a elimina combinatiile dimensionale nule, pentru a nu incarca memoria calculatorului;

8. posibilitatile de acces simultan a mai multor utilizatori (multi-user) la aceeasi faza (etapa) de analiza;

9. operatii nerestrictive, ceea ce da posibilitatea executarii fara restrictii a calculelor pentru toate combinarile de dimensiuni si niveluri ierarhice;

10. posibilitatea manipularii intuitive a datelor;

11. numar nelimitat de niveluri de agregare si de dimensiuni

Cele 11 reguli ale lui Codd au fost apoi regrupate intr-un test cu 5 reguli denumit FASMI (Fast Analysis Shared Multidimensional Information).

OLAP presupune existenta unor tehnici care permit de la o navigare si selectie simpla a datelor pana la analiza detaliata si complexa.

OLAP presupune ca analiza datelor (care pot fi de tip numeric sau statistic) poate fi predefinita de cel care creeaza aplicatia sau chiar de utilizatorul final.

OLAP se caracterizeaza prin:

nperspectiva multidimensionala a datelor,

ncapacitatea de calcul intensiv si

norientare in timp (time intelligence).

Aspectul multidimensional al datelor este dat de posibilitatea de a integra multiplele aspecte care caracterizeaza activitatea unei intreprinderi si care sunt considerate din perspective multiple ca: timp, bani, produse.

Fiecare dimensiune este definita in genere prin mai multe niveluri ca de exemplu: timpul este divizat in an, trimestre, luni, sezoane; produsul in: categorii, clasa. Conceptul de dimensiune este folosit ca inteles de aspect, dimensiunile fiind independente si cu unitati de masura specifice dimensiunii respective.

Unitatile de masura pot constitui criterii de agregare a datelor, iar nivelele unei dimensiuni formeaza ierarhia care la randul ei poate constitui criteriu de agregare a datelor.

Privite din punct de vedere multidimensional, datele sunt reprezentate in hipercuburi de date prin extinderea cubului tridimensional la cel n-dimensional.

Pe HIPERCUBUL DE DATE se pot efectua calcule prin aplicarea unor algoritmi complecsi asupra datelor structurate in acesta. Acestea implica posibilitatea de adresare multidimensionala directa a cuburilor unitare si optimizarea timpului de raspuns.

Bazele de date multidimensionale folosite de OLAP sunt suprapuse depozitelor de date si stocheaza straturi de date agregate pe diferite criterii ierarhice. De asemenea, aceste baze de date multidimensionale contin si date statistice pentru fiecare nivel de agregare.

Modelarea dimensionala presupune conceptualizarea si reprezentarea aspectelor masurabile ale activitatii studiate in interdependenta cu contextul in care acesta se desfasoara, aspect identificat prin parametrii activitatii.

Conceptele modelarii multidimensionale

1. cuantificarea activitatii (aspectul cantitativ) care se face prin utilizarea unitatilor de masura clasice ca de exemplu: m, m3, kg, unitati monetare. Masuri cantitative sunt: volum vanzari, volum salarii, cost materiale, cost produs etc.

2. dimensiunile activitatii care sunt de fapt parametrii activitatii masurate ca de exemplu: zi, luna, trimestru, client sau grupa de clienti. Dimensiunile sunt de obicei de natura diferita si raspund la intrebari de tipul: unde?, cand?, cu ce? etc.

3. faptele ce sunt colectii ale cuantificarii activitatii precum si dimensiunile care identifica modul in care acestea s-au desfasurat. Sursa de existenta a faptelor este constituita din inregistrarile stocate in tabelele de tranzactie ale aplicatiilor operationale care sustin activitatea respectiva.

4. dimensiuni scenarii care pot stoca in tabelele de fapte si masuri imaginare alaturi de cele reale, pentru ca utilizatorul sa poata stoca valori estimate pentru o masura.

Dimensiunile se materializeaza in setul de valori posibile care formeaza domeniul caracteristicii respective, valori care poarta numele de membrii dimensiunii.

O alta caracteristica a dimensiunii este a ceea ca poate avea multipli adica sunt grupe de valori ale dimensiunii cu o caracteristica comuna. Grupele pot fi identificate prin atribute care se afla in nomenclatorare si pot lua aceeasi valoare pentru mai multe valori ale cheii primare.

Dimensiunile impreuna cu multiplii lor formeaza structuri arborescente care sunt recunoscute de OLAP ca fiind ierarhii.

Ierarhiile pot fi regulate, adica toate ramurile au acelasi numar de ramificatii sau neregulate daca pe anumite ramuri lipseste un nivel de semnificatie.

Atributele care definesc ierarhia sunt atribute derivate din atributul care defineste dimensiunea actiunilor masurate. De exemplu, furnizorii se pot clasifica in furnizori stabili daca compania face tranzactii cu ei de mai mult de 4 ani, furnizori noi daca au vechime cuprinsa intre 1 si 4 ani si furnizori volatili sau ocazionali daca in campul respectiv din Furnizori nu este completat nimic.

Sectiunea unui hipercub este definita ca o sectiune din cub data prin coordonatele sale.

Proiectia este definita ca o sectiune care centralizeaza datele de pe toate dimensiunile suprimate.

Vizualizarea on-line se face in sectiuni sau proiectii tridimensionale. Datele din celule sunt prezentate numai in sectiuni sau proiectii transversale bidimensionale. Hipercubul ar putea fi imaginat ca un set de tabele pivot grupate pe dimensiunea ceruta.

Pentru procesul de modelare, hipercubul se poate prezenta in forma tabelara in care masurile sunt evidentiate pe coloane iar liniile reprezinta combinatiile de dimensiuni. De asemenea, in plan fizic, hipercubul poate fi stocat intr-un tabel cu coloane multiple in care se stocheaza masurile si cu identificatori pe randuri.

Datele modelate ca hipercuburi formeaza baze de date multidimensionale.

Baza de date multidimensionala este formata din doua structuri:

1. structura datelor in care se stocheaza masurile activitatilor preluate din tabela de fapte a depozitului de date. Datele vor fi prezentate utilizatorului in celulele tabelelor pivot;

2. structura metadatelor care este formata din totalitatea dimensiunilor si membrilor acestora precum si din structurile ierarhice ale dimensiunilor. Utilizatorul poate vizualiza aceasta structura ca nume de coloane si linii care reprezinta informatiile de pe axele cuburilor.

Numerotarea nivelurilor incepe de la radacina (nivel 0) catre frunze (unde va apare nivelul maxim). Ierarhiile poseda propriile lor seturi de niveluri, chiar daca unele ramuri sunt comune.

Pentru a se putea naviga pe o structura arborescenta, sistemele de gestiune pun la dispozitie operatori ierarhici. De exemplu, pentru exploatarea datelor, sistemele de gestiune ofera operatori pe hipercuburi.

Masca de interogare se obtine prin exploatarea structurii ierarhice a metadatelor de unde se pot extrage seturi de membri pentru dimensiunile desemnate prin specificatorii de axe. Adresarea tabelului de masuri se face in mod direct pe baza unui set de adrese de inregistrari care se suprapun cu tiparul mastii.

3.8 Operatii OLAP asupra hipercubului

Un hipercub este proiectat astfel incat el sa aiba in vedere nivelul de detaliu necesar in procesul de analiza. Nivelul de detaliu (granularitatea) reprezinta numarul de membri ai unei dimensiuni.

Daca granularitatea este prea mare, datele vor fi mult prea centralizate si nu se va putea face decat o analiza grosiera. Ajustarea nivelului de granularitate este realizata de OLAP prin exploatarea ierarhiilor dimensiunilor prin comasari si descompuneri ale masurilor prin proceduri care poarta numele de roll-up (date sintetice) si drill-down (detalii)

Un alt grup de operatii oferit de OLAP este sectionarea (slicing) si defalcarea (dicing). Prin sectionare, se creeaza posibilitatea selectarii prin vizualizare doar pentru un membru al unei dimensiuni, adica un plan din cubul tridimensional. Sectiunea astfel obtinuta va apare ca un tabel pilot cu valorile dimensiunilor pe laturi si cu specificarea valorii alese pentru dimensiunea suprimata.

Defalcarea (dicing) este operatia de proiectare a unei dimensiuni pe o alta. De obicei o dimensiune din primul plan este combinata cu o alta dimensiune din adancime. Acest proces se mai numeste imbricarea dimensiunilor.

Proiectarea structurilor depozitelor de date si a cuburilor OLAP este un proces ce se desfasoara continuu pe tot parcursul existentei (vietii) aplicatiei, dimensiunile cuburilor fiind in stransa dependenta cu detaliile activitatii structurate.

Aplicatiile construite cu tehnologia OLAP isi gasesc locul in multiplele domenii ale activitatii intreprinderilor, de la finante, banci, marketing pana la productie si vanzari.

Tema4:
DATA MINING - TEHNOLOGII DEDICATE EXTRAGERII CUNOSTINTELOR
16 aprilie 2008

DEPOZITE DE DATE (DATA WAREHOUSING)

4.1. Problematica generala

Existenta unor volume imense de date a pus problema reorientarii utilizarii lor de la un proces de exploatare retrospectiv catre unul prospectiv.

Data Mining reprezinta un proces de extragere de informatii noi din colectiile de date existente. Termenul de data are semnificatia de descriere a unui eveniment bine determinat care se produce in lumea reala si este verificabil.

Prin tehnologia Data Mining se prelucreaza date care refera perioade anterioare (date istorice), care sunt examinate si sunt deja cunoscute, pe baza lor constituindu-se un model. Acest model poate fi aplicat situatiilor noi de acelasi tip cu cele deja cunoscute.

Informatiile care se pot obtine prin Data Mining sunt predictive sau descriptive. De exemplu directionarea actiunilor de marketing pot constitui o problema tipica predictiva. Detectarea fraudelor produse cu carduri bancare reprezinta o problema tipica de aplicatie descriptiva.

Necesitatea Data Mining:

Arhivele de date memorate pe suporturi informatice;

Existenta si perfectionarea algoritmilor si a produselor program dedicate;

Cresterea capacitatii de memorare si prelucrare a calculatoarelor care permit tratarea corelativa a volumelor mari de date.

CARACTERISTICA DE BAZA: depozitele de date pot fi surse pentru Data Mining, iar rezultatele obtinute pot completa campurile inregistrarilor din depozitele de date, care apoi pot fi valorificate prin proiectiile multidimensionale specifice OLAP.

Ciclul in utilizarea Data Mining are 4 etape:

definirea oportunitatilor comerciale si a datelor pe care se face exploatarea;

obtinerea de informatii din colectiile de date existente prin tehnici Data Mining;

adoptarea deciziilor si actiunilor in urma informatiilor rezultate;

cuantificarea cat mai corecta a rezultatelor concrete pentru a identifica si alte cai de exploatare a datelor.

4.2. Cautarea cunostintelor si verificarea ipotezelor

Tehnicile de Data Mining se pot aplica atat ascendent cat si descendent. Pentru abordarea descendenta se iau in considerare ipotezele formulate in prealabil prin alte mijloace. Abordarea ascendenta urmareste extragerea de cunostinte sau informatii noi din date disponibile, aceasta cautare putand fi dirijata sau nedirijata.

Cautarea dirijata presupune ca se ia in considerare un atribut sau un camp, ale carui valori se explica prin celelalte campuri. Cautarea nedirijata identifica relatiile sau structurile din datele examinate fara a asigura prioritate unui camp sau a altuia.

Ceea ce se exploateaza prin Data Mining sunt colectii de date constituite pentru alte scopuri (exemplu tranzactii derulate pe o perioada de timp). Deseori la acest tip de date se adauga si cele provenite din alte surse cum statistici oficiale care privesc evolutia in ansamblu a economiei, date privind concurenta sau masuri legislative.

Ca urmare se foloseste tot mai des notiunea de informatie ascunsa in sensul ca este aproape imposibila detectarea corelatiilor sau raporturile pe care datele le incorporeaza in mod intrinsec. Rezultatea obtinute sunt cu atat mai relevante cu cat ele se bazeaza pe un volum mare de date.

Datele pot fi exploatate pentru a obtine informatii prin diverse tehnici cum sunt: retele neuronale, arbori de decizie, algoritmi genetici, analiza grupurilor, rationamente bazate pe cazuri, analiza legaturilor. Aceste tehnici pot fi asociate cu tehnici statistice cum sunt regresiile sau analiza factoriala.

Data Mining nu este capabila, ca tehnica, sa rezolve orice problema de gestiune. De fapt ceea ce poate oferi se rezuma la cateva actiuni cum sunt: clasificarea, estimarea, predictia, gruparea, analiza gruparilor, care folosite la locul potrivit pot deveni utile pentru o multime de probleme din domeniul decizional.

Clasificarea are ca scop dispunerea obiectelor prelucrate intr-un grup limitat de clase predefinite. De exemplu, vanzarea unui produs nou se poate incadra intr-una din urmatoarele categorii de risc: scazut, mediu, ridicat.

Datele obtinute in mod clasificat sunt reprezentate sub forma de inregistrari care la randul lor sunt compuse din atribute sau campuri.

Ca tehnici de Data Mining pentru clasificare sunt arborii de decizie si rationamentul bazat pe cazuri.

2. Estimarea atribuie o valoare unei variabile pe baza celorlalte date de intrare. Rezultatele obtinute in urma estimarii sunt valori continue. Pentru acest tip de prelucrari se pot utiliza retelele neuronale.

3. Predictia claseaza inregistrarile luate in considerare in functie de un anumit comportament sau o valoare viitoare estimata. Se recurge la o colectie de exemple care vizeaza date din trecut, in care valorile variabilei de previzionat sunt deja cunoscute. Cu ajutorul lor se construieste un model care explica comportamentul observat. Aplicand acest model inregistrarilor care fac obiectul prelucrarii, se obtine o predictie a comportamentului sau a valorilor acestora in viitor.

Gruparea conduce la determinarea acelor obiecte care apar cel mai frecvent impreuna. Un exemplu este "analiza cosului gospodariei" in evaluarile statistice.

5. Analiza grupului urmareste o divizare a populatiei heterogene in grupuri mai omogene, care poarta numele de clustere. In aceasta tehnica nu se pleaca de la un set predeterminat de clase si nici din exemple din trecut. Segmentarea pe grupuri se face in functie de similitudinile obiectelor.

4.3 Explorarea datelor - continut si etape

Programele care realizeaza implementarea algoritmilor pentru Data Mining nu sunt suficiente. Ele trebuie alimentate cu date care provin din diverse surse organizate pentru alte scopuri. De aceea este necesar un proces de curatare a acestora si de uniformizare pentru a fi explorate asa cum sunt ele furnizate de programe, continutul lor trebuind a fi analizat de specialisti care vor identifica informatiile utile pe care rezultatele le contin.

Tehnicile de Data Mining se pot utiliza numai in procese specifice complexe si de cele mai multe ori neliniare. Se pot astfel distinge etapele: definirea problemei; identificarea surselor de date; colectarea si selectarea datelor; pregatirea datelor; definirea si construirea modelului; evaluarea modelului; integrarea modelului.

1. Definirea problemei consta in sesizarea unei oportunitati sau necesitati de afaceri. De aceea se va delimita ceea ce urmeaza a fi rezolvat prin Data Mining, obiective urmarire si rezultate scontate.

Problema ce urmeaza a fi rezolvata prin Data Mining este o parte componenta a oportunitatii organizatiei, dar nu se identifica cu ea. De asemenea problema trebuie sa primeasca o forma adecvata pentru a putea fi tratata cu aceasta tehnica.

2. Identificarea surselor de date consta in stabilirea structurii generale a datelor necesare pentru rezolvarea problemei precum si regulile de constituire a acestora si localizarea lor. Fiecare sursa de date va fi examinata pentru o familiarizare cu continutul sau si pentru identificarea incoerentelor sau a problemelor de definire.

3. Colectarea si selectia datelor este etapa in care se face extragerea si depunerea intr-o baza comuna a datelor care urmeaza a fi utilizate ulterior. Aceasta etapa ocupa un timp mare, circa 80% din timpul total, iar existenta depozitelor de date constituie un real avantaj.

In functie de limitele echipamentelor de calcul folosite, de produsele program aplicate colectiilor de date si nu in ultimul rand de bugetul disponibil se poate prelucra intregul fond de date disponibil sau un esantion. Daca optiunea aleasa este dirijata spre lucrul cu esantionare, atunci trebuie respectate toate regulile si cerintele de selectare a acestora.

Pregatirea datelor. Datele sunt de obicei stocate in colectii de date care au fost construte pentru alte scopuri. De aceea firesc este sa existe o faza preliminara de pregatire inainte de extragere prin Data Mining.

Transformarile la care sunt supuse datele pentru Data Mining se refera la: valori extreme, valori lipsa, valori de tip text, tabele. Traterea valorilor extreme se poate face prin incadrarea intre anumite limite cuprinse intre medie si un numar de abatere standard prin excludere sau limitare sau prin izolarea varfurilor.

In cazul valorilor lipsa se pot elimina campurile cu valori nule din inregistrari, sau se pot completa campurile cu date de valori medii, deoarece existenta lor poate duce la o functionare incorecta a algoritmilor de Data Mining.

Valorile de tip text ridica probleme intrucat separarea prin spatii a cuvintelor duc la aparitia de valori diferite. Din acest motiv este indicata eliminarea lor, dar daca prelucrarea lor nu poate fi eliminata, solutia cea mai potrivita este de codificare prin tabele de corespondente, in care sa se evidentieze toate sirurile valide de caractere.

Rezumarea se aplica atunci cand datele sunt considerate a reprezenta detalii nesemnificative pentru rezolvarea problemei, sau cand numarul de exemple este insuficient.

Codificarea incoerenta apare in momentul in care obiecte identice sunt reprezentate diferit in unele din sursele utilizate.

Tema4:
DATA MINING - TEHNOLOGII DEDICATE EXTRAGERII CUNOSTINTELOR
Partea
a-II-a
07 mai 2008

DEPOZITE DE DATE (DATA WAREHOUSING)

4.3 Explorarea datelor - continut si etape

Incompatibilitatile arhitecturale informatice se refera la diferentele existente intre modul de reprezentare interna a valorilor datorat crearii lor cu sisteme din generatii diverse.

Definirea si construirea modelului este etapa care se apropie cel mai mult de notiunea de Data Mining si se refera la crearea modelului informatic care va efectua exploatarea. Etapa de definire si construire a modelului este insotita de faza de instruire sau invatare, depinzand de tehnicile de Data Mining utilizate.

Invatarea presupune existenta unui set suficient de reprezentativ de exemple complete de la care se porneste pentru a identifica relatiile de legatura intre valorile campurilor sau atributelor. Se considera ca fiind incheiat procesul de invatare, in momentul in care rezultatele obtinute prin model se apropie suficient de mult de solutiile continute de datele dupa care s-a invatat.

Nu intotdeauna rezultatele invatarii sunt cele scontate si atunci modelul va fi supus testarii cu date diferite de cele folosite pentru invatare, dar care apartin aceleiasi colectii. In aceasta subetapa sunt formulate alte doua obiective si anume: obtinerea de date preclasate si distribuirea acestora in seturi de invatare, testare sau evaluare.

DATELE COLECTATE SI PRECLASATE SUNT DIVIZATE IN TREI PARTI:

70-80% din inregistrarile de date sunt folosite pentru invatare, 20-30% din inregistrari pentru testare (sau 10-15% pentru testare si 10-15% pentru evaluare).

Schema procesului de construire a modelelor Data Mining

Evaluarea modelului are ca scop de a determina corect valorile in care modelul are capacitatea de a evalua corect valorile pentru cazurile noi. Modelul va fi astfel aplicat asupra ultimei parti din datele preclasate care sunt dedicate evaluarii.

Procentul de eroare ce se stabileste acum va fi considerat ca va fi acceptat si pentru datele noi. Performantele unui model se vor aprecia cu "matricea de confuzie" care are rolul de a compara situatia reala cu cea pe care modelul o furnizeaza.

Matricea de confuzie (C - clase)

PREDICTIE(C1,C2,C3 VERTICALA) ACTUALE(C1,C2,C3 ORIZONTALA)

C1

C2

C3

C1

C2

C3

Matricea de confuzie din tabel diagonala principala indica numarul de predictii corecte pentru fiecare clasa, iar celelalte elemente reprezinta raspunsurile incorecte. Rata de precizie totala este de 68% (84 de raspunsuri corecte din 124 de cazuri).

Se asociaza costuri diferite la raspunsuri eronate diferite. In matricea considerata, fiecare raspuns corect are valoarea de 10 RON, iar fiecare raspuns incorect din clasa C1 are un cost de 10 RON, din clasa C2 de 8 RON si din clasa C3 de 12 RON. Atunci, valoarea neta a matricei de confuzie este (84*10 RON) - (8*10 RON)-(18*8 RON)-(14*12 RON)=448 RON. Este de dorit ca aceasta valoare neta sa fie cat mai mare.

Integrarea modelului este etapa in care se finalizeaza procesul, prin incorporarea modelului in SIAD ca element de baza, sau prin includerea sa intr-un proces decizional general din organizatie.

OBSERVATII :

Orice model prezinta o durata de viata limitata. Modelele sunt actualizate in permanenta in concordanta cu modificarile ce apar in domeniul de referinta.

Rezolvarea unei probleme de decizie date se realizeaza prin integrarea mai multor tehnici de lucru Data Mining.

4. Rationamentul bazat pe cazuri

Prin aceasta tehnica se cauta o rezolvare a problemelor aparute prin analogie cu experienta acumulata. Aceasta metoda se poate aplica pentru clasificari si pentru predictii.

Cazurile pe care este bazat rationamentul sunt memorate ca inregistrari compuse din setul de atribute care descriu fiecare caz. Un caz nou este prezentat tot ca o inregistrare Campurile in care valoarea trebuie determinata sunt vide. Pentru a determina aceste valori se cauta inregistrarile cu care inregistrarea "caz nou" se aseamana si continutul acestora se considera a fi raspunsul.

Exista doua functii fundamentale de prelucrare:

masurarea distantei dintre membrii fiecarui cuplu de inregistrari, pentru a afla vecinele cele mai apropiate;

combinarea rezultatelor obtinute de la "vecine in raspunsul propus pentru cazul curent

Masurarea distantei dintre campuri. Se numeste distanta expresia modului in care se evalueaza similitudinea. Distanta are ca proprietati: poate fi definita si se prezinta ca un numar real; distanta de la un element la el insusi este totdeauna nula; sensul de masurare este fara semnificatie in modul ca distanta de la elementul A la elementul B este egala cu distanta de la B la A si nu exista un punct C intermediar lui A si B prin a carei parcurgere sa se scurteze drumul de la A la B

Ca moduri de calcul pentru distanta campurilor numerice se enumera:

-diferenta intre valoare absoluta |A-B|;

-patratul diferentei (A-B)2

-diferenta intre valoare absoluta normalizata |A-B| (diferenta maxima). Ultima varianta produce rezultate cu valori cuprinse intre 0 si 1.

Masurarea distantei intre inregistrari Cand apare necesitatea de a considera simultan mai multe campuri ale inregistrarii, se calculeaza distanta pentru fiecare camp in parte, iar rezultatul se combina intr-o valoare mica care reprezinta distanta inregistrarii respective.

Dintre procedeele de combinare a distantei campurilor, se enumera: insumarea, insumarea normalizata (suma distantelor/suma maxima), distanta euclidiana (radacina patrata din suma patratelor distantelor). Distanta euclidiana evidentiaza cel mai bine inregistrarile pentru care toate campurile sunt vecine.

Combinarea rezultatelor presupune aflarea celor mai apropiati vecini, iar solutia problemei se obtine prin combinarea raspunsurilor obtinute de la acestia. Fiecare vecin poate avea diverse variante de raspuns, dar se vor lua in calcul doar cei care sunt mai apropiati. Rezultatul ce obtine majoritatea va fi atribuit cazului curent. Cerinta minima este ca numarul votantilor sa fie impar, pentru a evita situatiile de nedeterminare.

Metodele care se bazeaza pe vot dau rezultate satisfacatoare in situatiile in care raspunsurile asteptate sunt de tip enumerativ. O alta solutie posibila este interpolarea valorilor inregistrarilor vecine care insa introduce o aplatizare a rezultatelor care se inscriu intre cele doua limite folosite in calcul.

De asemenea, se poate constata ca rezultate bune se obtin prin metode de regresie statistica aplicate asupra valorilor date de vecinii cei mai apropiati. Se obtine ecuatia unei drepte sau a unei curbe care permite calcularea mai precisa a valorilor aferente cazului curent.

Se poate concluziona ca rationamentul bazat pe cazuri este o tehnica de Data Mining suficient de buna si care se poate aplica unui mare numar de probleme, caz in care conduce la solutii acceptabile. Toate acestea sunt valabile daca volumul de date pe care se bazeaza este bine ales si concludent.

Avantaje :

1)aplicarea unui mare numar de tipuri de date, pe structuri de date complexe, iar campurile tip text sunt mai bine tratate decat in alte tehnici;

2)luarea in considerare a oricat de multor campuri;

3)rezultatele obtinute sunt explicite;

4)elementele de noutate care apar in procesul de invatare sunt usor de inglobat si de folosit in rationamente.

Dezavantaje:

1)volumul mare de memorie si resursa timp de prelucrare relativ mare;

2)timpul de prelucrarea mare pentru aplicarea functiilor de distanta asupra tuturor inregistrarilor si campurilor necesare pentru obtinerea rezultatelor.



Politica de confidentialitate | Termeni si conditii de utilizare



DISTRIBUIE DOCUMENTUL

Comentarii


Vizualizari: 1985
Importanta: rank

Comenteaza documentul:

Te rugam sa te autentifici sau sa iti faci cont pentru a putea comenta

Creaza cont nou

Termeni si conditii de utilizare | Contact
© SCRIGROUP 2024 . All rights reserved