Skip to content

Dataplattform: Datalake

torjohannessen edited this page Mar 16, 2022 · 2 revisions

Datalaken består av tre forskjellige levler som alle er definert gjennom mapper. Man kan gi en lambda tilgang til spesifikke mapper i AWS.

Struktur

└──data
   ├──level-1
   |  └──yr_weather
   |     ├──raw
   |     |  └──<random>.json
   |     └──structured
   |        └──<table name>
   |           ├──<partition name>
   |           |  └──partX.parq
   |           └──_metadata
   ├──level-2
   |  ├──slack
   |  ├──knowit-labs
   |  ├──linkedin
   |  ├──ubw (fagtimer)
   |  ├──google-calendar
   |  ├──google-forms
   |  ├──github
   |  └──twitter
   └──level-3 (level-4)
      └──ubw
      └──cvpartner
      └──kompetansekartlegging
      └──active directory

SQL

For å kjøre spørringer på dataen med Amazon Athena må den lagres på en strukturert måte med metadatafiler som har oversikt over strukturen. Metadataen blir lagret av AWS Glue.

Clone this wiki locally