Hva er et data lakehouse?

28.08.2022 | 2 min lesetid
Emneknagg: #data lakehouse

Som konsept er et data lakehouse kjærlighetsbarnet til en data lake og et datavarehus: et data lakehouse er egnet til å lagre og prosessere alle former for data knyttet til både rapportering og analyse.

Data lakehouse
Data lakehouse

Data lakehouse-modellen, der vi har en data lake med rådata, og logiske datavarehus-lag på toppen, bidrar til å minimere dataflytting. Leverandører som Databricks, Snowflake, Azure, Google Cloud og AWS muliggjør alle en sammenlignbar arkitektur, og det har etter hvert blitt mange implementasjoner verden over av det som kan betegnes som «the modern data stack».

Det er alltid noe nytt som er kan omtales som «moderne». Disse kjennetegnene er kanskje de viktigste i forhold til hvordan datavarehus og data lakes er bygget opp opprinnelig:

  • Skille mellom prosessering og lagring
  • Skalerbarhet i form av datavolum, brukere og bredde i støttede brukerhistorier
  • Modularisering

I tillegg er et viktig poeng at tabellformat som Hudi, Apache Iceberg og Hudi gjør at vi får til logiske databaseoperasjoner på Data lake-tabeller. ACID-støtte gjør at vi blant annet kan både endre og slette data - og det må vi kunne for å ivareta GDPR-krav.

Fellestrekkene i implementasjonene så langt er bredden i brukerhistoriene om støttes - med den samme arkitekturen. Der vi før snakket om f.eks et datavarehus, snakker vi nå om dataplattformer der vi kan legge til og fjerne komponenter og tjenester etter hvert som behovene endres. Dataplattformene er nå også hovedsakelig bygget på en skytjeneste, primært fra Google Cloud, AWS eller Azure. Rapportering, maskinlæring/avansert analyse og sanntidsdata er eksempler på brukerhistorier som kan støttes av en og samme dataplattform.

Dataplattformer bygget opp basert på en data lakehouse-arkitektur er neppe endestasjonen denne gangen heller. Det vil alltid dukke opp begreper og konsepter som anses som mer moderne eller bedre enn det som var dominerende tidligere. Det er bare å glede seg. Om du trenger bistand til å navigere i begrepsjungelen, er det bare å ta kontakt med oss i Glitni!

Nedenfor oppsummerer vi noen viktige fordeler og ulemper ved å bruke et data lakehouse for lagring til rapportering og analyse:

Fordeler
  • Støtte for mange ulike typer brukerhistorier, både rapportering og avansert analyse. Gir prosesseringsmuligheter, biblioteksstøtte for R og Python, samt gode API-muligheter
  • Redusert dataredudans fordi data kan lagres kun en gang – både strukturerte og ustrukturerte data
  • Er kostnadseffektivt – utnytter rimelig lagring gjennom data lake-lagring
Ulemper
  • Risiko for at teknologi og arkitekturmønstre er umodne – kan gjøre at valg som gjøres må bygges om senere
  • Fagfeltet er ikke oppdatert/utviklet tilstrekkelig innen implementering og DataOps ift de tekniske mulighetene som har åpnet seg


author image

Magne Bakkeli

Magne har over 20 års erfaring som rådgiver, arkitekt og prosjektleder innen data & analytics. Han er god til å navigere i både forretningsmessige og tekniske problemstillinger, og jobber like godt med konsernledelsen som IT-avdelingen.