Trender | Landskapet for maskinlæring, AI og data (MAD) - 2023
11.03.2023 | 2 min lesetidEmneknagger: #dataplattform, #data lakehouse, #dataops, #arkitektur, #trender
Hvert år publiserer Matt Turck fra Firstmark (VC) landskapet for maskinlæring, AI og data (MAD). Personlig synes jeg denne oversikten, men tilhørende kommentarer, er mye mer nyttig enn Gartner sine teknologirapporter i det samme landskapet. 2023-versjonen har kommet, og landskapet er som vanlig omfattende.
Du finner en PDF-versjon her.
Konsolidering og bundling
Etter å fått kastet penger etter seg er det nå en myriade av små teknologi-aktører. De store vil kjøpe en del av disse - de er jo ikke dyre lenger - og selv utvide kapabilitetene sine. Databricks og Snowflake legger begge på nye features i raskt tempo, for å nevne noen.
Den moderne data-stacken er under press
Det har vokst frem mange verktøy. Vi skiller mellom innlast, prosessering, transformasjon, lagring, data-overvåkning, datakatalog etc. For en del organisasjoner er kompleksiteten blitt unødvendig stor, om use casene er relativt enkle. Og - det er faktisk litt dyrt å ta vare på alle data. Det spås at det kommer mer pakketerte løsninger fremover som reduserer kompleksiteten (for eksempel Y42 og Mozart Data).
På slutten av veien for ETL?
Tja, denne er jeg litt usikker på. Men - Amazon introduserte et begrep som de kaller “Zero ETL”, hvor datakildene automatisk har connectorer mot databasene. Så snart transaksjonsdataene kommer i den operasjonelle databasen, blir de også tilgjengelige i den analytiske databasen. Kanskje får vi slike dataintegrasjoner fra de større aktørene (Microsoft, Salesforce etc) snart?
Data mesh, dataprodukter og datakontrakter forsøker å håndtere organisatorisk kompleksitet
Mange store organisasjoner har masse ulike teknologier, datakilder og team som jobber med data. Ikke alt er like strømlinjeformet. Det er tre begreper eller filosofier som har en del fart nå: data mesh, dataprodukter og datakontrakter. Sistnevnte er kanskje den nyeste på listen: API-lignende avtaler mellom utviklere som eier tjenester og datakonsumenter, som er særlig viktige når dataene skal utveksles i nær sanntid.
Konvergens mellom ulike typer lagring og dataflyt
Det er aktører som forsøker å viske ut skillet mellom dataflyt i sanntid og i batch (dvs vi går mot sanntid for mer), og skillet mellom operasjonelle og analytiske databaser. Eksempler er Google med AlloyDB og Snowflake med UniStore.
AI inn i arbeidsprosessen for data og analyse (litt meta)
De store språkmodellene, som eksemplisert gjennom Chat GPT, kommer inn i arbeidet til analytikerne. De kan oversette muntlig språk til SQL-kode, og det kommer også integrert funksjonalitet inn i BI-verktøy som PowerBI og Tableau.