Jump to section

Data management: cos'è un data lake?

Copia URL

Un data lake è un tipo di repository di dati in grado di archiviare set di dati non elaborati di grandi dimensioni e di varia tipologia nel loro formato nativo. I data lake forniscono una visualizzazione non elaborata dei dati, offrendo una sempre più diffusa strategia di gestione dei dati alle aziende che desiderano adottare un repository dei loro dati globale e di grandi dimensioni. 

Per "dati non elaborati" si intendono quei dati che non sono ancora stati elaborati per uno scopo specifico. Un dato in un Data Lake non viene definito fino al momento in cui non viene eseguita una query che lo coinvolga. I data scientist possono accedere ai dati non elaborati mentre utilizzano strumenti di analisi avanzati o di modellazione predittiva.

Con i data lake, nessun dato viene rimosso o filtrato prima di eseguirne lo storage. A differenza di quando i dati vengono elaborati a seconda del loro scopo specifico, nel caso dei data lake non sussistono vincoli o restrizioni temporali per l'analisi dei dati, che possono essere utilizzati più volte.

Il termine data lake è stato introdotto da James Dixon, Chief Technology Officer di Pentaho. L'immagine dell'acqua in questo caso è calzante, perché questo repository di dati archivia un pool di dati al suo stato naturale, come se fossero forme fluide non ancora filtrate o suddivise in pacchetti. Il flusso dei dati proviene da più fonti e si riversa nel lake, quindi viene archiviato nel suo formato originale. 

I dati all'interno di un data lake vengono trasformati solo nel momento in cui occorre analizzarli e, successivamente, viene applicato uno schema per procedere all'analisi. Questo schema è definito "schema on read", perché i dati vengono elaborati solamente nel momento in cui sono pronti per essere utilizzati. 

I data lake consentono agli utenti di accedere e analizzare i dati dove e come sono, senza doverli spostare in un altro sistema. Le informazioni e la reportistica ottenuti dai data lake vengono elaborati a seconda dei casi e non estratti regolarmente da un'altra piattaforma o da un altro tipo di repository di dati. Tuttavia, gli utenti possono applicare uno schema e una procedura di automazione per poter duplicare un report, se necessario. 

I data lake devono disporre di una governance e richiedono una manutenzione continua per rendere i dati fruibili e accessibili. Senza tutto questo, i dati rischierebbero di diventare inaccessibili, ingombranti, costosi e quindi, inutili. I Data Lake che non sono accessibili dagli utenti vengono definiti "data swamp", ovvero una "palude di dati".

Poste Italiane logo

Poste Italiane accelera la trasformazione digitale

Adottando Red Hat OpenShift e le soluzioni di storage e automazione di Red Hat, il servizio postale italiano crea una piattaforma cloud ready per lo sviluppo di applicazioni digitali.

Benché vengano spesso confusi, i Data Lake e i Data Warehouse sono due concetti diversi e servono a scopi profondamente distinti. L'unico punto in comune è che entrambi sono repository di storage di dati per i big data. Per realizzare i propri obiettivi aziendali, molte società usano sia i data warehouse che i data lake. 

Un data warehouse fornisce un modello di dati strutturato e progettato per la reportistica. Si tratta della principale differenza tra i data lake e i data warehouse. Un data lake archivia dati non strutturati, non elaborati e senza uno scopo predefinito. 

Prima di inserire i dati in un data warehouse è necessario elaborarli. A questo scopo, si decide quali dati includere o meno nel data warehouse, un processo che viene definito "schema on write". 

Affinare i dati prima di archiviarli in un data warehouse può richiedere tempo, a volte mesi o anni, ed è un processo complesso, il che impedisce inoltre di acquisirli immediatamente. Con un Data Lake, puoi iniziare a raccogliere i dati fin da subito e decidere come utilizzarli in un secondo momento.

Tenuto conto della loro struttura predefinita, i Data Warehouse vengono utilizzati più spesso dagli analisti e dagli utenti aziendali che sanno in anticipo di quali dati hanno bisogno per la reportistica standard. Un Data Lake viene invece utilizzato soprattutto dai data scientist e dagli analisti che effettuano le ricerche utilizzando i dati, applicando di volta in volta filtri e analisi più avanzati perché possano risultare utili.

Inoltre, i Data Lake e i Data Warehouse usano diversi hardware per lo storage. I Data Warehouse possono essere costosi, mentre i Data Lake, nonostante la loro dimensione, riescono a essere più economici poiché usano hardware di largo consumo.

Un Data Lake ha un'architettura piatta in cui i dati possono essere non strutturati, semi-strutturati o strutturati e raccolti da diverse fonti all'interno dell'organizzazione; al contrario, un Data Warehouse archivia i dati in file o cartelle. Il Data Lake può essere on-premise o su cloud.

Per la natura della loro architettura, i Data Lake offrono una scalabilità massiva fino alla scala exabyte. Questo è molto importante soprattutto perché quando si crea un Data Lake non si conosce in anticipo il volume dei dati che verranno trattenuti. I sistemi di storage di dati tradizionali non offrono questo tipo di scalabilità.

Questo tipo di architettura va a vantaggio dei data scientist poiché consente loro di accedere ai dati dell'intera azienda, analizzarli, condividerli e fare riferimenti incrociati, anche tra dati eterogenei da campi diversi, per ottenere nuove informazioni. Possono inoltre sfruttare gli strumenti di analisi dei big data e di machine learning per analizzare i dati in un data lake. 

Benché ai dati non venga applicata una struttura predefinita prima di essere archiviati in un data lake, la loro governance è comunque fondamentale. Per garantire la loro futura accessibilità evitando un data swamp, una volta inseriti nei data lake, i dati devono essere contrassegnati con metadati.

Migliora la gestione delle applicazioni IA/ML

Una serie di webinar on demand per scoprire le opinioni degli esperti su come semplificare il deployment e la gestione del ciclo di vita delle applicazioni di intelligenza artificiale/machine learning (IA/ML)per creare, collaborare e condividere modelli di ML e app IA più rapidamente. 

 

Sfrutta l'intelligenza artificiale per lanciare le tue applicazioni sul mercato più rapidamente grazie alla piattaforma Kubernetes.

Le soluzioni di storage software defined e open source di Red Hat permettono alla tua azienda di ottenere più efficienza e crescere più rapidamente, garantendo una sicura archiviazione di qualsiasi tipologia di dati, da documenti finanziari importanti a rich media.

Grazie a uno storage software defined scalabile e conveniente, potrai analizzare elevate quantità di dati e ottenere business insight più dettagliate. Le soluzioni di storage software defined di Red Hat sono tutte open source e si basano sulle innovazioni di una community di sviluppatori, partner e clienti. A seconda dei carichi di lavoro, degli ambienti e delle necessità specifiche della tua azienda, potrai decidere il formato e l'utilizzo del tuo storage.

Keep reading

ARTICOLO

Perché scegliere lo storage Red Hat?

Scopri cos'è lo storage software-defined e come eseguire il deployment di una soluzione di storage software-defined Red Hat che offre la flessibilità di gestire, archiviare e condividere i dati in base alle tue esigenze.

ARTICOLO

Cos'è lo storage su cloud?

Lo storage su cloud è l'organizzazione dei dati archiviati in un'ubicazione che è accessibile tramite Internet da chiunque abbia le debite autorizzazioni. Scopri di più su come funziona.

ARGOMENTO

I vantaggi dei servizi dati

Con servizi dati si indicano raccolte di piccole funzioni indipendenti e a basso accoppiamento utilizzate per l'ottimizzazione, l'organizzazione, la condivisione e l'elaborazione dei dati in base a informazioni acquisite e salvate su volumi per l'archiviazione dei dati.

Scopri di più sullo storage

Prodotti

Una soluzione di storage software defined che fornisce uno spazio di archiviazione dati permanente durante l'avvio e l'arresto dei container tra gli ambienti.

Un sistema di storage open source software defined, altamente scalabile e in grado di gestire in modo efficace petabyte di dati.

Risorse

White paper

Riduci il debito tecnico dell'infrastruttura con la modernizzazione dell'IT.

Scheda tecnica

Leggi la scheda tecnica per scoprire i vantaggi di Red Hat OpenShift Data Foundation.