martedì 23 ottobre 2018

Report, basi di dati operative e datawarehouse

Il report si configura quale strumento informativo e di divulgazione di conoscenze all'interno di qualsiasi organizzazione, la sua funzione può essere anche di analisi e di approfondimento di determinati aspetti e tematiche.

Il report, che sia di natura contabile o extracontabile, informativa o di controllo dev'essere realizzato combinando i dati e analizzando gli stessi al fine di trarre informazioni utili a seconda dei destinatari del report stesso e degli obiettivi che si vogliono conseguire.

Il sistema informativo di un'organizzazione è costituito a sua volta dai diversi sistemi informativi: sistema informativo amministrativo, logistico, ecc. Un particolare sistema informativo è quello direzionale che è orientato al supporto dei decisori aziendali, chiamato Decision Support System (DSS).

I sistemi informatici di supporto ai sistemi informativi direzionali (DSS) hanno principalmente i seguenti scopi: la produzione di reporting di tipo contabile, la produzione di reporting di tipo extra-contabile, e il supporto a processi decisionali.

I componenti del DSS sono:
  • Datawarehouse/Data Mart
  • Data Mining
  • Olap
  • Data Lake

Il Data Warehouse (DW) si configura come una collezione di dati grande, condivisa e persistente orientata ai soggetti. A differenza delle basi di dati operazionali che operano nel mondo operativo mediante l'utilizzo di software destinati alla gestione dei dati operativi, in lettura ma soprattutto in scrittura (si pensi alla logistica, al magazzino, ecc), il DW consente solo di leggere grandi quantità di dati provenienti da tutte le basi di dati operative (le sorgenti) al fine di analizzarli e ottenere informazioni utili ai processi decisionali.

La distinzione tra i due livelli, operativo e warehouse, avviene anche con riferimento alle tipologie di operazioni: OLTP (On-line Transacion Processing) e OLAP (On-Line Analytical Processing). Le prime sono operazioni di scrittura e lettura di dati limitati effettuate da molti utenti, le seconda, sono operazioni di lettura multidimensionali effettuate su grandi quantità di dati e da pochi utenti.

Il paradigma grafico utilizzato è il cosiddetto cubo multidimensionale costituto a sua volta da singole celle. La multi dimensionalità permette in sostanza di analizzare i dati sotto diversi punti di vista.

Il Data Lake (DL) usa come paradigma il lago, alimentato da diverse sorgenti. A differenza dei dati contenuti nel DW, nel DL i dati non sono sottoposti ad operazioni di pulitura, i cosiddetti strumenti di di ETL, ma sono invece presentati grezzi per assicurare una maggiore flessibilità e analisi.

Se da una parte i DW assicurano un sistema efficiente e governabile avendo come contro un sistema rigido e non adattabile, i DL permettono maggiore flessibilità ma comportano una base (il lago) di dati molto vasto e disordinato.

DW: OLAP E OLTP


All'interno di qualsiasi organizzazione il sistema informativo viene definito come l'insieme delle componenti di un'organizzazione volte all'acquisizione, all'elaborazione e alla condivisione dell'informazioni.

Tra il sistema informativo direzionale quello operativo vi e quindi un flusso continuo di informazioni: il sistema direzionale è dotato di una propria base di dati ed è alimentato dai dati provenienti dal mondo operativo che utilizza tecnologie Erp o CRM che confluiscono nella base di dati direzionale, la quale utilizza una tipologia di base di dati nota come datawarehouse

Nell'ambito dei sistemi informativi operativi le operazioni sono del tipo OLTP (On-line Transaction Processing) ovvero le operazioni sulle transazioni si configurano come ripetitive e a supporto dei processi operativi di un'azienda

Le interrogazioni si caratterizzano per un lettura e una scrittura di un numero ridotto di record con dati correnti e dettagliati, ripetitivi e sono orientati a servire un grande numero di utenti operativi.

I dati, in seguito ad un processo di chiamato di ETL, Extraction Transformation e Loading, sono immessi in un data warehouse dove sono analizzati al fine di supportare le decisioni azioni aziendali.



Il ruolo degli strumenti di Extraction, Transformation and Loading è quello di alimentare una sorgente dati singola, dettagliata esauriente e di alta qualità che possa a sua volta alimentare il DW.

Le fasi distinte di questa operazione possono essere suddivise in: Estrazione, pulitura, trasformazione e caricamento.

La fase di estrazione prevede il prelievo dei dati rilevanti dalle sorgenti, può essere statica, incrementale guidata dalle sorgenti.

L’estrazione statica viene effettuata quando il DW deve essere popolato per la prima volta, quella incrementale viene usata per l’aggiornamento periodico del DW.

Nella fase di pulitura sono eliminati i duplicati, quelli parziali, i valori errato o inconsistenti. Nella fase di trasformazione i dati vengono convertiti dal formato operazionale sorgente a quello del DW.

La pulitura può avvenire mediante l’uso di dizionari appositi per correggere gli errori di scrittura o mediante la pulitura basata su regole con l’applicazione di regole del dominio applicativo per stabilire le corrette corrispondenze tra valori.

La Trasformazione converte i dati dal formato operazionale sorgente a quello del DW. La corrispondenza con il livello sorgente è in genere complicata dalla presenza di fonti eterogenee.

In tale ambito si distinguono le operazione di matching che consentono di stabilire corrispondenze tra campi equivalenti in sorgenti diverse e di selezione che riducono il numero di campi e di record rispetto alle sorgenti.Il caricamento può avvenire in refresh, dove i dati del vengono riscritti integralmente, sostituendo quelli precedenti, oppure in update, dove vengono aggiunti solo le modifiche.

MODELLO MULTIDIMENSIONALE


Le tipologie di operazioni che interessato il livello DW sono note come OLTP, On-Line Analytical Processing. Esse designano un insieme di tecniche software per l'analisi interattiva e veloce di grandi quantità di dati

L’obiettivo è quindi di effettuare calcoli e analisi di dati per consentire reporting di sintesi. Pertanto, i sistemi OLAP, memorizzano dati storici, debolmente o fortemente aggregati e pressoché statici

I dati di un DW sono presentati all’utente finale mediante una rappresentazione di alto livello che prescinde dai criteri di memorizzazione dei dati e ne favorisce l’analisi, tale modello è noto come modello multidimensionale.

Esso è basato su 3 concetti di base: il fatto, la misura e la dimensione.

Il fatto costituisce un concetto del sistema informativo, o meglio l’attività, sulla quale si svolge il processo di analisi orientato al supporto delle decisioni.

La misura è un attributo definito su domini a valori continui che descrive quantitativamente il fatto da diversi punti di vista.

La dimensione si pone come un insieme di elementi che descrive il quando, chi, dove, come di un fatto d'interesse. I valori per una dimensione vengono definiti membri.

Le dimensioni vengono organizzate in gerarchie di livelli di aggregazione. Fissate le dimensioni di un fatto e il livello di aggregazione, un’istanza del fatto assegna ogni combinazione di membri un valore.

La rappresentazione grafica maggiormente utilizzata dagli strumenti di analisi nella quale le istanze di un fatto sono rappresentate da cubi dimensionali costituiti da elementi atomici dette celle.

In tale modello di rappresentazione il DW è costituito da cubi dimensionali ognuno dei quali rappresenta di fatto un data mart.



Un Cubo OLAP è una struttura per la memorizzazione di dati che permette di eseguire analisi in tempi rapidi, superando un limite dei database relazionali.

I database relazionali non sono adatti ad elaborazioni istantanee e alla visualizzazione di una grande mole di dati. Al contrario, sono adatti all'elaborazione di record derivanti dall'esecuzione di transazioni OLTP.

Il Cubo OLAP è composto da dati numerici, detti misure, che sono categorizzati all'interno di dimensioni.

Consente di creare una reportistica come tabella pivot, l'inserimento di elementi e campi calcolati che rielaborano i dati di partenza, e operazioni di roll-up e drill-down, se le dimensioni sono organizzate all'interno di una gerarchia

Tra le diverse modalità di creazione del cubo vi è lo schema “a stella” dove al centro troviamo la tabella dei fatti che elenca i principali elementi sui quali è costruita l’interrogazione e al quale si ricollegano varie tabelle, dette delle “dimensioni”, che specificano le modalità di aggregazione dei dati.

Ciascuno degli elementi di una certa dimensione può essere categorizzato all'interno di una gerarchia. Una gerarchia è una serie di relazioni padre e figlio, dove tipicamente l'elemento padre rappresenta il consolidamento degli elementi che sono suoi figli. Gli elementi padre possono essere a loro volta aggregati come figli di un ulteriore padre.

La tabella pivot è la reportistica che risulta da una query OLAP elaborata su dati organizzati all'interno di un ipercubo OLAP.

La sorgente dei dati della tabella pivot è una sola, la tabella dei fatti che contiene il dato numerico presente nella tabella pivot e le dimensioni di analisi che lo identificano.


OPERAZIONI NEL MODELLO MULTIDIMENSIONALE


L’ultimo livello comune a tutte le architetture di Data Warehousing è quello dell’analisi. Infatti, una volta che i dati sono stati ripuliti, integrati e trasformati, occorre capire come trarre il massimo vantaggio informativo.

Esistono, in sostanza, tre approcci differenti (supportati da altrettante categorie di strumenti) all’interrogazione di un DW da parte degli utenti finali: reportistica, OLAP e Data Mining.

Reportistica Questo approccio è orientato agli utenti che hanno necessit`a di accedere, ad intervalli di tempo predefiniti, ad informazioni strutturate in modo pressochè invariabile.

Il progettista può formulare l’interrogazione e renderla disponibile nel tempo. Un report è definito da una interrogazione (Es: selezione ed aggregazione) e da una presentazione (forma tabellare o grafica).

L’OLAP (On-line Analytical Processing) si sostanzia in un insieme di tecniche e sistemi dedicati all’elaborazione e analisi di dati che assicurano rispose in tempi brevi anche a fronte di grandi quantità di dati.

Mentre gli utenti degli strumenti di reportistica svolgono un ruolo essenzialmente passivo, gli utenti OLAP sono in grado di costruire attivamente una sessione di analisi complessa in cui ciascun passo effettuato è conseguenza dei risultati ottenuti al passo precedente.

Le funzioni base che vengono assicurate nei sistemi OLAP sono lo : slice-and-dice, roll-up, drill-down, drill-across e pivoting

L’operazione slice-and-dice consiste nel selezionare un sottoinsieme delle celle di un cubo. L’operazione roll-up consiste in un’aggregazione dei dati di un cubo seguita dall’applicazione di una funzione aggregativa, ad esempio una somma, eliminando un livello di dettaglio da una gerarchia.

Il drill down è una operazione che consente di aggiungere maggiore dettaglio a un cubo disaggregando in una o più dimensioni. Tale operazione necessita di dati di dettaglio che sono generalmente esterni alla tabella sulla quale si effettua l’analisi.

Con il termine drill-across si intende la possibilità`a di stabilire un collegamento tra due o pi`u cubi correlati al fine di compararne i dati, per esempio calcolando espressioni che coinvolgono misure derivate dai due cubi.

L’operazione di pivoting comporta un cambiamento nella modalità di presentazione con l’obiettivo di analizzare le stesse informazioni sotto diversi punti di vista. Seguendo la metafora multidimensionale, effettuare il pivoting significa ruotare il cubo in modo da riorganizzare le celle secondo una nuova prospettiva

Nessun commento:

Posta un commento