author image

Sindre Grindheim

Sindre er en erfaren Data Platform Engineer innen arkitektur og implementasjon av moderne dataplattformer i Azure og Google Cloud, Databricks og Snowflake.

Analysere JSON i Synapse, BigQuery, Databricks og Snowflake

03.05.2022 | 1 min lesetid

En praktisk sammenligning av schema-on-read-støtte for JSON i populære dataprosesseringsmotorer

Uansett om du skal bygge et skydatavarehus eller et data lakehouse så kommer du til å ende opp med mange JSON-filer i data laken, da det hyppig blir brukt for loggdata og som output fra ulike APIer.

Å vite hvordan man analyserer disse semistrukturerte filene raskt og effektivt med SQL er helt essensielt for alle som jobber med data.

Men siden alle de populære dataprosesseringsmotorene har egne variasjoner av hvordan de har implementert sin SQL-dialekt er det litt ulikt hvordan man går frem når man jobber med JSON-filer.

Vi har publisert en artikkel på Medium som forsøker å vise an praktisk sammenligning av hvordan den samme informasjonen kan bli hentet ut gjennom et utvalg populære verktøy - Synapse Serverless SQL pool, BigQuery, Databricks SQL og Snowflake.

Her vil du se at mens Databricks SQL og Snowflake har en moderne og enkel støtte for JSON, så er det noe mer tungvint i Synapse og BigQuery (foreløpig!).

Sindre Grindheim

Sindre er en erfaren Data Platform Engineer innen arkitektur og implementasjon av moderne dataplattformer i Azure og Google Cloud, Databricks og Snowflake.