CATEGORII DOCUMENTE |
Depozitele de date sunt produsul mediului economic si al tehnologiilor avansate. Pe de o parte, mediul economic este tot mai competitiv, global si complex si solicita informatii elaborate pentru sprijinirea deciziilor strategice iar, pe de alta parte, evolutiile tehnologiilor informationale ofera solutii eficiente de gestionare a unor volume mari de date integrate, de ordinul terabytes-ilor, asigurand niveluri de sinteza/detaliere adecvate. Astfel, evolutiile performante din hardware cum sunt sistemele de procesari masive paralele (Massive Parallel Processing - MPP), sistemele de multiprocesare simetrica (Symetric Multi-Processing - SMP), sistemele tip baze de date paralele fac posibile incarcarea, intretinerea si accesul la baze de date de dimensiuni uriase. Aplicatiile data warehouse sunt in masura sa asigure si un timp mediu de raspuns extrem de redus pentru categorii extinse de utilizatori.
Depozitele de date (data warehouse) furnizeaza arhitecturi si instrumente utile conducerii executive {business executives) prin organizarea sistematica, intelegerea si utilizarea datelor in luarea deciziilor strategice. Un mare numar de organizatii considera ca sistemele data warehouse dispun de instrumente valoroase in mediul economic de astazi, mediu competitiv si in rapida evolutie.
In ultimii ani multe firme au cheltuit milioane de dolari cu realizarea de depozite de date. Multa lume isi da seama ca in conditiile competitiei sporite din fiecare industrie, depozitele de date sunt armele care trebuie marketingului, reprezentand calea de a pastra clientii.
Depozitele de date (data warehouse) au fost definite in foarte multe moduri, incat este destul de dificil de formulat o definitie riguroasa. In sens larg, un depozit de date reprezinta o baza de date care este intretinuta separat de bazele de date operationale ale organizatiei. Datele din sistemele sursa sunt extrase, curatite, transformate si stocate in depozite speciale in scopul sprijinirii proceselor decizionale. Depozitele de date sprijina procesarea informatiilor furnizand o platforma solida de consolidare a datelor istorice pentru analiza. Un depozit de date este o suma de date consistenta, din punct de vedere semantic, care serveste la o implementare fizica a unui model de date pentru sprijinirea deciziei si stocheaza informatii pe care o organizatie le solicita in luarea deciziilor strategice.
Conform lui W.H. Inmon, cel mai de seama autor in domeniul construirii depozitelor de date, acestea sunt 'o colectie de date orientate pe subiecte, integrate, istorice si nevolatile destinata sprijinirii procesului decizional', de aici rezultand caracteristicile depozitelor de date: orientarea pe subiecte, integrarea, caracterul istoric si persistenta datelor.
Depozitul de date (Data Warehouse) este un sistem complex care contine datele operationale si istorice ale unei organizatii, fiind o entitate separata de celelalte baze de date operationale. Cantitatea enorma de date continute de un depozit de date provine atat din surse interne cat si din sursele externe ale organizatiei. Depozitul de date preia datele din bazele de date operationale, urmand ca asupra lor sa se realizeze diferite analize in scopul sprijinirii decidentului in cadrul procesului decizional.
Procesul de construire si utilizare al depozitelor de date este cunoscut sub denumirea data warehousing, iar acest proces presupune integrarea, filtrarea si consolidarea datelor.
Obiectivele aferente unui depozit de date au fost identificate ca fiind urmatoarele:
- oferirea unei singure versiuni a datelor - utilizatorului nu i se pun la dispozitie date ambigue. Datele din depozitele de date sunt consistente si au calitatea asigurata inainte de a fi puse la dispozitia utilizatorilor finali, fara sa mai existe dezbateri cu privire la veridicitatea datelor utilizate;
- asigurarea accesului sporit la date pentru utilizator - un calculator este cel care faciliteaza accesul utilizatorului la depozitul de date;
- permiterea accesului combinat sinteza/detaliu la date - informatiile se pot colecta si formata cu mai multa usurinta utilizand datele din cadrul depozitelor de date;
- inregistrarea si redarea cu acuratete a trecutului - datele din trecut pot fi extrem de importante pentru utilizatori, deoarece deseori datele din prezent nu sunt relevante daca nu se compara cu cele din trecut;
- diferentierea prelucrarilor la nivel operational si analitic -intretinerea unui sistem informational in cadrul caruia informatiile decizionale si cele operationale trebuie reunite este problematica. Depozitele de date contin diferite tipuri de date: date detaliate, date agregate, metadate, acestea din urma sunt cele ce permit specificarea structurii datelor, provenienta lor, regulile de transformare, fiind utilizate in cadrul incarcarii datelor si avand astfel un rol important in alimentarea depozitului de date.
Utilizarea depozitelor de date are o serie de avantaje, din care mentionam urmatoarele:
- decidentii pot obtine cu mai mare usurinta o serie de rapoarte in spijinul procesului decizional;
- cresterea consistentei datelor, a "productivitatii' acestora;
- utilizatorii au acces la o mare varietate de date;
- structura depozitului de date face ca aceasta sa se adapteze cu usurinta la schimbarile datelor si sa fie capabila sa transmita datele modificate sistemului operational.
In literatura de specialitate se folosesc simultan doi termeni pentru depozite de date: Data Warehouse si Information Warehouse. Data warehousing desemneaza procesul de construire si utilizare a depozitelor de date (data warehouse) Construirea unui depozit de date necesita integrarea dalelor, curatirea datelor (data cleaning) si consolidarea datelor. Utilizarea unui depozit de date necesita adesea o colectie de tehnologii de asistare a deciziilor. Acestea permit managerilor si specialistlloi (de exemplu, analisti, consilieri etc.) sa utilizeze depozitul pentru a obtine rapid si convenabil datele necesare si sa ia deciziile bazate pe informatiile din depozit.
Esenta unui depozit de date consta intr-o baza de date de dimensiuni foarte mari continand informatiile pe care le pot folosi utilizatorii finali (clienti, furnizori, companii de publicitate etc). Arhitectura simplificata a unui depozit de date este prezentata in figura nr. 1
Fig.1 Arhitectura generala a depozitului de date
Construirea depozitului de date presupune parcurgerea urmatoarelor etape:
- Un proces de extragere a datelor din bazele de date operationale sau din surse externe, urmat de copierea lor in depozitul de date. Acest proces trebuie, cel mai adesea, sa transforme datele in structura si formatul intern al depozitului;
Un proces de curatire a datelor, pentru a exista certitudinea ca datele sunt corecte si pot fi utilizate pentru luarea deciziilor;
- Un proces de incarcare a datelor corecte in depozitul de date
- Un proces de creare a oricaror agregari ale datelor : totaluri precalculate. subtotaluri, valori medii etc. care se preconizeaza ca vor fi cerute si folosite de utilizatori. Aceste agregari sunt stocate in depozitul de dale impreuna cu datele importate din sursele interne si externe.
In depozitul de date intalnim mai multe tipuri de date care corespund diferitelor cerinte informationale ale utilizatorilor: date detaliate, date agregate, metadate. Metadatele descriu datele continute in depozitul de date si modul in care ele sunt obtinute si stocate.
Depozitele de date pot fi deosebit de utile diferitelor categorii de decidenti, iar principalele moduri in care se beneficiaza de datele din cadrul depozitelor de date sunt solutiile de procesare analitica on-line (OLAP) si tehnicile Data Mining.
Tipuri de depozite de date
Din punct de vedere al ariei de cuprindere, se intalnesc trei modele de depozite de date: depozite de intreprindere (Enterprise Warehouse), data marts si depozite virtuale de date.
Un depozit de intreprindere (Enterprise Warehouse) colecteaza toate informatiile despre subiecte care privesc intreaga organizatie. El furnizeaza un volum extins de date. De regula contine date detaliate, dar si date agregate, iar ca ordin de marime porneste de la cativa gigabytes pana la sute de gigabytes, terabytes sau mai mult. Un depozit de date de intreprindere poate fi implementat pe traditionalele mainframes, pe superservere UNIX sau pe platforme cu arhitecturi paralele. Acesta necesita cheltuieli mai mari pentru modelare si ani de zile pentru proiectare si realizare.
Un data mart contine un subset al volumului de date din organizatie, specific unui grup de utilizatori. Domeniul este limitat la subiecte specifice. De exemplu, un data mart pentru marketing limiteaza subiectele la clienti, ai licole, vanzari. Datele continute in data mart sunt de obicei agregate. Data marts sunt, in mod curent, implementate pe servere departamentale mai ieftine care se bazeaza pe UNIX sau Windows/NT. Ciclul de implementare a unui data mart este mai curand masurat in saptamani decat in luni sau ani. Ca atare, un data mart poate fi considerat un subansamblu al unui depozit de date mai usor de construit si intretinut si mai putin scump.
Un depozit virtual (Virtual warehouse) este un set de viziuni (views) asupra bazelor de date operationale. Pentru eficienta procesarii interogarilor, numai unele din viziunile de agregare pot fi materializate. Un depozit virtual este usor de construit, dar necesita capacitati suplimentare pe serverele de baze de date.
Tehnologia de procesare analitica a bazelor de date online (OLAP) se refera la posibilitatea de agregare a datelor din cadrul unui depozit de date, avand capacitatea de a obtine din volumul mare de date, informatii utile procesului decizional din cadrul unei organizatii. Conform specialistilor, un termen alternativ care ar fi mai reprezentativ pentru descrierea conceptului OLAP ar fi FASMI (Fast Analysis of Shared Multidimensional Information - Analiza rapida a informatiilor partajate multidimensionale). Esenta oricarui sistem OLAP este cubul OLAP, cunoscut si sub denumirea de cub multidimensional, format din fapte numerice numite masuri, categorisite dupa dimensiuni.Aceste masuri rezulta din articolele tabelelor din cadrul bazelor de date relationale. Rezultatele cerintelor utilizatorilor pot fi obtinute prin parcurgerea dinamica a dimensiunilor cubului de date, la diferite niveluri de sinteza sau detaliere.
Sistemele OLAP au urmatoarele caracteristici:
- perspectiva multidimensionala asupra datelor;
- capacitate de calcul intensiv;
- orientarea in timp (time intelligence).
Tehnologiile disponibile pentru gestionarea datelor si informatiilor trebuie sa contribuie la o mai buna intelegere a trecutului si la previzionarea viitorului prin intermediul eficientizarii deciziilor luate, aici intervenind tehnologiile Data Mining. Tehnologiile Data Mining integrate in sistemele de asistare a deciziilor determina existenta unui instrument de asistare a deciziilor bazat inca pe interactiunea om-masina (om-sistem de calcul), iar aceste doua entitati luate impreuna reprezinta un spectru de tehnologii informatice analitice care realizeaza o platforma pentru o combinatie optima pentru o analiza dictata de date, dar condusa de om.
In cadrul sistemului de asistare a deciziilor utilizat intr-o organizatie puternic informatizata se regasesc elementele din Figura 2.
Tehnologiile Data Mining poseda caracteristici datorita carora sunt potrivite pentru analizarea cantitatilor foarte mari de date. Data Mining are ca scop descoperirea de sabloane in cadrul seturilor de date, in timp ce alte tehnologii analitice, cum ar fi interogarile, pachetele pentru analiza statistica, uneltele OLAP, sunt bazate pe verificari, care se dovedesc a fi limitate.
Colectionarea datelor ce reflecta activitatile unei organizatii a devenit vitala pentru dobandirea avantajului competitional. Companiile mijlocii si mari au investit in sisteme informatice care colectioneaza date si gestioneaza baze de date foarte mari. Sarcina esentiala pe care aceste sisteme o duc cu succes la indeplinire este extragerea de cunostinte in urma rationamentelor efectuate asupra informatiilor rezultatelor din cadrul datelor colectionate
Cantitatea enorma de date depaseste cu mult capacitatea umana, prin urmare pentru ca deciziile manageriale sa fie fundamentate corect, este necesara existenta de sisteme ce utilizeaza tehnologia Data Mining. Acestea permit stabilirea de sabloane chiar date brute, neprocesate, furnizand diferite rezultate ce pot fi utilizate atat in sistemele de asistare a deciziei sau pot fi de ajutor analistului uman.
Procesul de Data Mining cuprinde patru faze importante: colectarea datelor, pregatirea datelor, stabilirea unor sabloane si analiza aceam sabloane. Faza de colectare a datelor implica preluarea de date din diferite surse, iar cum aceste date pot fi eterogene, faza de pregatire a datelor presupune normalizarea acestora si reprezentarea lor in structuri in asa incat sa devina mai usor de utilizat. Datele identificate dupa anumite caracteristici in faza anterioara sunt extrase si apoi formatate pentru a reprezenta datele in formatul pe care aplicatia de Data Mining o solicita. Datele odata pregatite si formatate, se aplica tehnicile de Data Mining pentru a fi stabilite sabloanele.
Cateva din beneficiile pe care tehnologiile Data Mining le pot oferi in afaceri sunt:
- identificarea celor mai bune strategii de marketing;
- previzionarea interesului unui anumit client pentru diverse produse:
- identificarea si asimilarea parametrilor ce influenteaza tendintele in vanzari;
- asista procesul de segmentare a pietei si personalizarea comunicarii cu clienti tinta
Necesitatea, popularitatea si utilitatea tehnologiilor Data Mining se afla in continua crestere din urmatoarele motive:
cresterea volumului de date acumulat zilnic de o organizatie poate fi coplesitor;
limitarea analistilor umani, a caror capacitate de analiza este cu mult depasita de volumul imens de date si complexitatea determinata de dependentele dintre date, in plus, interventia implicand si un deficit de obiectivitate in analiza;
Sarcini ce pot fi indeplinite de tehnologiile Data Mining sunt
predictia - predictia unor valori viitoare ale unor variabile de interes se poate obtine urmarind sabloane din exemple si dezvoltand un model;
clasificarea - presupune gasirea unei functii ce clasifica inregistrarile in clase discrete;
detectarea relatiilor - este o sarcina ce permite cautarea celor mai influente variabile independente;
modelarea explicita - permite gasirea unor formule explicite ce descriu dependentele dintre diferite variabile;
clustering - permite identificarea de grupuri de articole ce prezinta asemanari si sunt diferite fata de alte articole.
Inteligenta artificiala ofera tehnici sau metode evoluate prin care orice problema complexa din domeniul economic, dar nu numai, isi gaseste rezolvarea. Inteligenta, in general privita, presupune capacitatea de a perepe si invata in contextul unor noi situatii ce pot interveni. Inteligenta umana este definita prin doua componente esentiale: capacitatea de cunoastere si cea de rationament. Inteligenta artificiala se refera la acel domeniu informatic ce depaseste depaseste informatica clasica, destinat solutionarii problemelor pentru care nu exista un algoritm clasic de calcul. Tehnicile de inteligenta artificiala vizeaza dezvoltarea de sisteme inteligente de calcul, dotate cu caracteristici similare inteligentei umane: rationament, capacitatea de invatat rezolvare si comunicare. Asadar scopul final al inteligentei artificiale este imitarea caracteristicilor inteligentei umane, prin intermediul utilizarii calculatorului electronic si a programelor inteligente, in ideea de determina un comportament inteligent al calculatoarelor.
Inteligenta artificiala nu trebuie vazuta si tratata ca un domeniu comercial, ea fiind de fapt o stiinta si o tehnologie bazate pe concepte si idei izvorate din cercetare, dar care nu pot fi comercializate ca atare. Totusi, inteligenta artificiala ofera o fundamentare stiintifica pentru mai multe tehnologii comerciale foarte profitabile: sisteme inteligente de toate tipurile, roboti, senzori, calculatoare inteligente, instructori inteligenti, masini care recunosc forme, care vorbesc etc.
Tipurile de sisteme inteligente sunt retelele neuronale, algoritmii genetici, sistemele expert, sistemele fuzzy, sistemele hibride si agentii inteligenti, cu ajutorul acestora reusindu-se eficientizarea informatizarii in cateva domenii ale managementului, in care intervine expertiza umani considerabila.
Sistemele neuronale
artificiale - au
la baza metoda retelelor neuronale de reprezentare a cunoasterii. Functionarea neuronilor artificiali e inspirata de functionarea
neuronilor biologici, fiind niste automate elementare. Sisteme inteligente
bazate
pe neuronii artificiali sunt utilizate deja cu succes pentru solutionarea
problemelor de marketing bancar, comercializarea actiunilor, evaluarea creditelor, diagnosticul financiar al
firmelor si diverse optimizari
Sisteme inteligente bazate pe algoritmi genetici Algoritmul genetic se bazeaza pe ideea de a incepe cu o populatie de solutii pentru rezolvarea unei probleme si a produce noi generatii de solutii, mai performante decat cele precedente. Algoritmul genetic se manifesta prin intermediul urmatoarelor faze:
-se creeaza o populatie de "membri', reprezentand solutii candidat pentru rezolvarea problemei;
-se selecteaza acei membri ce au manifestat adaptabilitate fata de rezolvarea problemelor;
-utilizand operatorii genetici de incrucisare si mutatie se obtin noi membri prin reproducere;
-se evalueaza noii membri si gradul in care corespund solutionarii problemei;
-se abandoneaza vechea populatie prin inlocuirea cu noua generatie.
Sistemele bazate pe algoritmi genetici si-au dovedit utilitatea in probleme de cautare si identificare a structurilor si relatiilor specifice bazelor de date si bazelor de cunostinte voluminoase (probleme de "data mining'), dar si in domeniile afacerilor financiare, comertul cu titluri, evaluarea creditelor, detectia fraudelor si predictia falimentului.
Sistemele fuzzy si-au dovedit performanta intr-o varietate de aplicatii de control industrial si de recunoastere a structurilor, de la scrisul de mana la evaluarea creditelor. Logica fuzzy e utilizata in mecanismul de control a unei mari parti din produsele industriale de larg consum: masini de spalat automate, cuptoare cu microunde, aparate de fotografiat. Aceste sisteme sunt mai puternice decat sistemele neuronale, deoarece bazele lor de cunostinte utilizeaza structuri de tip reguli de productie, usor de examinat, inteles si modificat. Numarul de aplicatii de tip regasire fuzzy in bazele de date (fuzzy database retrieval) a inregistrat o crestere semnificativa datorita faptului ca regasirea datelor in bazele de date conventionale nu ofera operatorilor umani flexibilitatea scontata.
4.Sistemele expert reprezinta categoria de sisteme inteligente cu cea mai mare vechime, bine puse la punct, mai ales in cazul sistemelor expert bazate pe reguli. Un dezavantaj al sistemelor expert il reprezinta incapacitatea acestora de invatare automata, de autoinstruire, ca celelalte tipuri de sisteme inteligente, motiv pentru care adaptabilitatea la schimbarile intervenite in mediul in care actioneaza este scazuta. Obiective principale sunt urmatoarele:
1.Achizitionarea usoara a cunoasterii pentru a infera noi cunostinte prin judecati, planuri, demonstratii, decizii, predictii;
2.Exploatarea eficienta a colectiei de cunostinte prin:
-combinarea si inlantuirea cunostintelor pentru a infera noi cunostinte prin judecati, planuri, demonstratii, decizii si predictii;
-luarea in considerare a modului in care sunt inferate cunostintele noi;
3.Suportarea cu usurinta a intregii
game a operatiilor asupra
cunostintelor (adaugarea, modificarea si eliminarea lor).
Obiectivele derivate sunt: reducerea riscurilor; cresterea creativitatii, invatarea.
Sistemele inteligente hibride - constituie un sprijin pentru rezolvarea problemelor economice complexe pentru solutionarea carora nu poate fi utilizata nici una din categoriile de sisteme inteligente mentionate anterior. Hibridizarea presupune utilizarea a doua sau mai multor categorii de sisteme inteligente pentru a gasi solutia potrivita.
Dezvoltarea sistemelor expert in domeniul luarii deciziilor cere atentie marita asupra realizarii sistemelor baza de date care pot contiiic administra agenti ai inteligentei artificiale.
Aplicand pe domeniul sistemelor expert si a inteligentei software a agentilor, abilitatea a doi sau mai multi agenti de a coopera in atingerea unui scop comun evoca problema interoperabilitatii. Dezvoltarea unor asemenea sisteme ar putea include integrarea cunostintelor de reprezentare si rationament a inteligentei artificiale cu modelele de baza de date si procesarea in vederea producerii unui 'super' model obiect. Problemele si cerintele aparute in domeniu vor fi rezolvate si executate de mai multi agenti in cooperare in vederea determinarii celei mai bune sror utilizand resursele disponibile.
Cunostintele si capacitatea de intelegere vor fi caracterizate natura si dimensiunea de cunostinte si rationamente cerute, gradul de distributie si impartire intre agentii sistemului si de precizia si complementaritatea, la fel ca si achizitia, marirea si instruirea din domeniEe inrudite prin cunostinte. Reprezentarea, modelarea, controlul si administrarea unor volume foarte mari si diferite (neomogene) de date. cunostinte persistente, distribuite si folosite in comun, fac ca sistemele de baza de date inteligente sa fie tot mai 'provocatoare'.
Un raspuns promitator la provocarea de mai sus il reprezinta sistemul de stocare de inalta performanta (HPSS - high-performance storage system). Un HPSS este un software care asigura un management ierarhic de stocare si servicii pentru medii de stocare foarte mari.
Politica de confidentialitate | Termeni si conditii de utilizare |
Vizualizari: 1081
Importanta:
Termeni si conditii de utilizare | Contact
© SCRIGROUP 2024 . All rights reserved