Layered Scalable Architecture nei Data Warehouse
In un articolo precedente è stata analizzata la differenza tra un Data Warehouse e un Data Lake. Ricordiamo che un Data Lake non è altro che un repository centralizzato il quale consente di memorizzare tutti i dati strutturati e non su qualsiasi scala. Mediante tale strumento è possibile memorizzare i dati “grezzi” senza doverli prima pre-processare e strutturare. I Data Lake permettono di eseguire agevolmente diversi tipi di analisi dei dati – da pannelli di controllo e visualizzazioni all’elaborazione di Big Data, analisi dei dati in tempo reale e machine learning per prendere decisioni migliori.
Il Data Warehouse, a differenza dell’architettura precedente, prevede l’utilizzo di dati strutturati e, quindi, pre-processati. Il Data Warehouse ha un’architettura multistrato compatta, nota come Layered Scalable Architecture (LSA) in cui LSA utilizza una distribuzione logica della struttura insieme ai dati in vari livelli funzionali. I dati vengono quindi estratti da uno strato all’altro e convertiti in informazioni stabili, appropriate per l’analisi.
Possiamo distinguere 4 livelli:
- Livello dati primario o Staging
In questo livello, i dati e le informazioni vengono collocati dai sistemi di origine che si trovano nella sua posizione primaria, inoltre vengono conservati i record di modifiche completi.
Dalla rappresentazione fisica delle origini dati e dal modo in cui vengono consolidate a come vengono estorte la trasformazione o la modifica, tutto viene riepilogato in questo livello poiché estrae i livelli di archiviazione successivi.
Anche a questo livello, vengono implementate pipeline ETL per convogliare i dati dai sistemi di origine al data warehouse. - Strato dati di base
Una sorta di elemento operativo per eseguire una fortificazione, normalizzazione e raffinamento di dati provenienti da varie fonti che producono alcune strutture e soluzioni tradizionali.
Ne consegue il compito specifico della qualità dei dati e delle conversioni estese per sottrarre gli utenti alla disposizione distintiva delle fonti di dati e alla necessità della loro misurazione e identificazione attraverso la quale è possibile garantire l’integrità e l’eccellenza dei dati.
Le trasmutazioni e l’immediata nuova alimentazione dei dati vengono effettuate dal modello dei dati in cui il modello dei dati rappresenta una stipulazione di ciascun tratto ed elemento nei database del data warehouse. Determina anche gli oggetti tra i quali la connessione, il dominio di core business, l’intera fabbricazione del database da tabelle e intervalli al loro interno fino a separazioni e indici. - Strato data mart
A questo livello è possibile eseguire l’elaborazione, la pulizia e il consolidamento dei dati nella struttura che è facile da decifrare e distribuire nelle dashboard. I data mart rendono distinti aspetti specifici del campo dei dati ed estraggono informazioni dai livelli precedenti. - Livello di servizio
Regola tutti gli strati sopra menzionati. Non include i dati aziendali, sebbene i metadati di controllo e diversi elementi e strutture di dati che consentano l’indagine successiva, la gestione dei dati, la protezione e la gestione della quantità. Gli strumenti di monitoraggio e analisi dei guasti sono accessibili anche in questo livello che avvia le pratiche di risoluzione dei problemi.