Data lakehouse | Hva er et data lakehouse?
28.08.2022 | 3 min lesetidEmneknagg: #data lakehouse
Som konsept er et data lakehouse kjærlighetsbarnet til en data lake og et datavarehus: et data lakehouse er egnet til å lagre og prosessere alle former for data knyttet til både rapportering og analyse.
Data Lakehouse - de beste egenskapene fra Data Lake og Datavarehus
Et Data Lakehouse er en dataarkitektur som kombinerer fordelene ved tradisjonelle datavarehus og data lakes. Det tilbyr en enhetlig plattform for både rådata (strukturerte og ustrukturerte) og modellerte data, noe som gjør det mulig å lagre store mengder rådata (som i en data lake) og samtidig utføre komplekse analytiske og transaksjonelle spørringer (som i et datavarehus).
Leverandører som Databricks, Snowflake, Azure, Google Cloud og AWS muliggjør alle en sammenlignbar arkitektur, og det har etter hvert blitt mange implementasjoner verden over av det som kan betegnes som «the modern data stack».
Det er alltid noe nytt som er kan omtales som «moderne». Disse kjennetegnene er kanskje de viktigste i forhold til hvordan datavarehus og data lakes er bygget opp opprinnelig:
- Skille mellom prosessering og lagring
- Skalerbarhet i form av datavolum, brukere og bredde i støttede brukerhistorier
- Modularisering
I tillegg er et viktig poeng at tabellformat som Hudi, Apache Iceberg og Hudi gjør at vi får til logiske databaseoperasjoner på Data lake-tabeller. ACID-støtte gjør at vi blant annet kan både endre og slette data - og det må vi kunne for å ivareta GDPR-krav.
Fellestrekkene i implementasjonene så langt er bredden i brukerhistoriene om støttes - med den samme arkitekturen. Der vi før snakket om f.eks et datavarehus, snakker vi nå om dataplattformer der vi kan legge til og fjerne komponenter og tjenester etter hvert som behovene endres. Dataplattformene er nå også hovedsakelig bygget på en skytjeneste, primært fra Google Cloud, AWS eller Azure. Rapportering, maskinlæring/avansert analyse og sanntidsdata er eksempler på brukerhistorier som kan støttes av en og samme dataplattform.
Dataplattformer bygget opp basert på en data lakehouse-arkitektur er neppe endestasjonen denne gangen heller. Det vil alltid dukke opp begreper og konsepter som anses som mer moderne eller bedre enn det som var dominerende tidligere. Det er bare å glede seg. Om du trenger bistand til å navigere i begrepsjungelen, er det bare å ta kontakt med oss i Glitni!
Fordeler og ulemper med et data lakehouse
Nedenfor oppsummerer vi noen viktige fordeler og ulemper ved å bruke et data lakehouse for lagring til rapportering og analyse:
Fordeler |
---|
|
Ulemper |
---|
|