Conceptes bàsics d’un BI (Bussiness Intelligence): Data Warehouse, ETL, OLAP
Intentarem entendre els conceptes bàsics d’intel·ligència de negocis (BI). Explicarem els tres components fonamentals del BI, quan i per què es necessiten cadascun. Els tres components que explicarem són els següents:
Data Warehouse (Magatzem de dades)
ETL (Extracció , transformació i càrrega)
OLAP (Online Analytic Processing)
Data Warehouse (Magatzem de dades)
Un magatzem de dades permet consolidar dades de diverses fonts (és a dir, de diferents programaris, bases de dades, fulls de càlculs, …) i després realitzar consultes i anàlisi complexes d’aquestes. Per exemple, una empresa per determinar la rendibilitat d’una nova línia de productes , hauria de treure informació sobre el cost de la fabricació i la planificació de recursos (informació del ERP), costos de transport, costos de comercialització i màrqueting (CRM), … Llavors, tots aquest costos els podríem comparar amb els ingressos del sistema comptable. Aquestes dades s’extrauran de forma organitzada cap a un magatzem de dades (Data Warehouse) a través de les ETL.
ETL (Extracció, transformació i càrrega).
Les eines ETL realitzen tres funcions per moure dades d’un lloc a un altre:
– Extreure dades de fonts com ara ERP o aplicacions de CRM, fulles Excel, …
– Transformar les dades en un format comú que encaixa amb altres dades al Data Warehouse
– Carregar les dades en el magatzem de dades per analitzar.
El concepte ETL sembla fàcil, però l’execució és força complexa. No estem parlant de només copiar i enganxar coses d’aquí cap allà. Cada pas, en el procés, té els seus desafiaments. Per exemple, durant el pas d’extracció, les dades poden provenir de sistemes de font diferents (per exemple, Oracle, SAP, Microsoft) i diferents formats d’arxius com ara XML, arxius plànols amb delimitadors (per exemple, CSV), o els pitjors – els vells sistemes de llegat que tenen les dades en formats arcaics que ningú més fa servir avui dia.
El pas de la transformació pot incloure la manipulació de dades múltiples, com ara la divisió, la traducció, l’ordenació, la classificació, … i moltes més. Per exemple, un nom de client pot ser dividit en el nom i cognom, o les dates podrien canviar amb el format estàndard ISO (per exemple, dates de amb format mm/dd/yy al format dd/mm/yyyy).
El pas final, la càrrega, consisteix en la càrrega de les dades transformades en el magatzem de dades. Això es pot fer o bé en processos per lots programats i planificats o fila a fila, més o menys en temps real.
OLAP (Online Analytic Processing)
El processament analític en línia (OLAP) és un altre dels processos i tecnologia que es troba en gairebé tots els entorns d’emmagatzematge de dades i sistemes d’intel·ligència de negoci. Les eines OLAP donen suport a la capa de presentació com ara la consulta, l’anàlisi i presentació d’informes. Les eines OLAP proporcionen les taules, els vistosos gràfics i les visualitzacions espectaculars que fan el BI tan atractiu.
Però el OLAP no és només una bona aparença, OLAP permet als usuaris realitzar anàlisis sofisticats i multidimensionals. En altres paraules, és el que ens permet analitzar més d’una dimensió de dades alhora. Per exemple, es podria analitzar la quantitat de pantalons blaus que es van vendre durant el mes de juliol a Barcelona i comparar-la amb les vendes d’un altre tipus de pantalons durant el mateix període.
Quan parlem d’OLAP gairebé sempre apareixen els conceptes “esquemes” i “cubs”. Un esquema descriu com les taules estan disposades en una base de dades. Esquemes en estrella i floc de neu són els dos estils més comuns. Es componen de “taules de fet” envoltades en forma d’estrella per “taules de dimensions.”
Una taula de fets és essencialment una sola taula amb files i columnes – com un full de càlcul – que conté les dades de negoci. Per exemple, una taula pot incloure dades sobre les vendes (Codi Producte ,Unitats Venudes, Id Client, Import .)
Una taula de dimensions conté informació que descriu els registres de la taula de fets. Conté els atributs de text, i aquests atributs poden ser descriptius o informar com s’han de resumir les dades de la taula de. La informació de les taules de dimensions és independent de la informació en altres taules de dimensions. Per exemple, una taula de dimensions producte té informació sobre els productes, mentre que una taula de dimensions client té informació sobre els clients.
Els cubs són els components bàsics dels sistemes OLAP. S’agreguen els fets de tots els nivells en una dimensió. Per exemple, podrien tenir dades sobre els productes, les unitats venudes i el valor de les vendes, després es sumen per mes, per botiga, per mes i la botiga i totes les combinacions possibles. Se’ls coneix com els cubs, perquè l’estructura de dades final s’assembla a un cub.