-
Notifications
You must be signed in to change notification settings - Fork 0
Dataplattform: Datalake
torjohannessen edited this page Mar 16, 2022
·
2 revisions
Datalaken består av tre forskjellige levler som alle er definert gjennom mapper. Man kan gi en lambda tilgang til spesifikke mapper i AWS.
└──data
├──level-1
| └──yr_weather
| ├──raw
| | └──<random>.json
| └──structured
| └──<table name>
| ├──<partition name>
| | └──partX.parq
| └──_metadata
├──level-2
| ├──slack
| ├──knowit-labs
| ├──linkedin
| ├──ubw (fagtimer)
| ├──google-calendar
| ├──google-forms
| ├──github
| └──twitter
└──level-3 (level-4)
└──ubw
└──cvpartner
└──kompetansekartlegging
└──active directory
For å kjøre spørringer på dataen med Amazon Athena må den lagres på en strukturert måte med metadatafiler som har oversikt over strukturen. Metadataen blir lagret av AWS Glue.