Dataplattform | Få kontroll på skykostnadene!
23.05.2022 | 2 min lesetidKategori: Dataplattform | Emneknagg: #skykostnader
Det er fort gjort at dataprosesseringskostnadene kan løpe løpsk i skyen. Vi har noen enkle råd for å bekjempe høye kostnader - du vil vel ikke gi bort penger når det er enkelt å gjøre noe med det?
Enkle grep for å holde skykostnadene nede
I et av prosjektene våre har vi hatt fokus på og klart å redusere kostnadene i det siste. Dette kommer av noen enkle endringer:
-
Sørg for transparens: sørg for at både utviklere og produkteiere ser kostnadene dataflyter og modeller skaper. Med andre ord: tagg dataflyter og prosesseringslogikk, og lag kostnadsrapporter og prediksjoner basert på taggene.
-
Velg hva dere fokuserer på: ikke prøv å optimalisere alle dataflyter og modeller samtidig. Identifiser og gjør tiltak for de 3-5 mest kostnadskrevende elementene til enhver tid.
-
Gjør det enkelt: Små endringer er ofte nok. Eksempelvis ved å endre fra full-last til inkrementell last, tilpasse skedulering av jobber til det som det faktisk er behov for, eller å redusere kapasiteten til en ressursgruppe.
-
Inkluder ytelse og prosesseringskostnad i testingen: sørg for at ytelsesfokus er del av utviklingspraksisen, og inkluderes i pull request-maler og peer-reviews. Kan spørringer og logikk settes opp på en mer effektiv måte?
-
Sørg for en moderne lagringsarkitektur: bruk ELT, og sørg for at data flyttes og dupliseres minst mulig slik at man slipper unødvendig prosessering og oppdatering. Noen mulige tiltak inkluderer logisk fremfor fysisk lagring, og bare ett miljø hvor kildedata lastes til som så er tilgjengelig for utviklings- og testmiljøer i tillegg til produksjonsmiljøet.
Bruk teknologienes funksjonalitet for kostnadskontroll
Mange skyteknologier har god innebygget funksjonalitet for å kontrollere kostnadene. Dette finner du informasjon om på dokumentasjonssidene deres, eller ved et enkelt søk på Youtube. Denne videoen gir for eksempel en god innføring i hvordan du kontrollerer kostnader i Google BigQuery:
Ikke kast bort pengene, bruk de heller til å lage gode dataprodukter!