Analysere JSON i Synapse, BigQuery, Databricks og Snowflake

03.05.2022 | 1 min lesetid
Kategori: Data Engineering

Ein praktisk samanlikning av schema-on-read-støtte for JSON i populære dataprosesseringsmotorar

Uansett om du skal byggje eit skydatavarehus eller eit data lakehouse så kjem du til å ende opp med mange JSON-filer i data laken, då dette formatet hyppig blir brukt for loggdata og som output frå ulike API.

Å vite korleis ein analyserer desse semistrukturerte filene raskt og effektivt med SQL er heilt essensielt for alle som jobber med data.

Men sidan alle dei populære dataprosesseringsmotorane har egne variasjonar av korleis dei har implementert sin SQL-dialekt er det litt ulikt korleis ein går fram når ein jobber med JSON-filer.

Me har publisert ein artikkel på Medium som forsøker å vise ei praktisk samanlikning av korleis den same informasjonen kan bli henta ut gjennom eit utval populære verktøy - Synapse Serverless SQL pool, BigQuery, Databricks SQL og Snowflake.

Her vil du sjå at medan Databricks SQL og Snowflake har ein moderne og enkel støtte for JSON, så er det noko meir tungvint i Synapse og BigQuery (foreløpig!).