Webarchiv.[en] | Konfigurační historie sklizní
Toto úložiště používáme ke sledování změn konfigurací našich crawlerů.
Také zde verzujeme seznamy semínek, která jsme použili pro konkrétní sklizeň.
- Webarchiv.[en] | Konfigurační historie sklizní
Konvence pojmenování souborů vychazí z metadatové specifikace v projektu grainnery vztahující se ke sklizním.
Každý název souboru je tvořen pouze kombinací takto definovaných metadatových typů.
Aktuální varianta
[fileType.prefix]-[dateType.month]-[harvestType.tag]-[harvestFreq].[fileType.fileformat]
[fileType.prefix]-[dateType.month]-[harvestType.tag]-[harvestFreq].[fileType.fileformat]
[seeds]-[2019-06]-[S]-[[1M]_[2M]_[OneShot]_[ArchiveIt]].[txt]
seeds-2019-06-S-1M_2M_OneShot_ArchiveIt.txt
Aktuální varianta
[fileType.prefix].[fileType.fileformat]
[fileType.prefix]-[harvestType.tag]-[dateType.year].[fileType.fileformat]
crawler-beans.cxml
crawler-beans-S-2020.cxml
Konvence pojmenování adresáře vychází z metadatové specifikace v projektu grainnery vztahující se ke sklizním.
Každý název adresáře je tvořen pouze kombinací takto definovaných metadatových typů.
harvestType a directoryType.suffix ,
spolu s datumovým typem jako volným typem dateType.
[harvestType]-[directoryType.suffix]
Monthly-crawls/
Topic-crawls/
Shared-config/
| prefix | mimetype | fileformat | popis |
|---|---|---|---|
| seeds | text/plain | txt | soubor se seznamem semínek vybraných pro sklizeň |
| crawler-beans | text/xml | cxml | soubor s konfigurací crawleru |
| suffix | popis |
|---|---|
| config | adresář se sdílenou konfigurací pro všechny crawlery, blacklist, sheets, atp. |
| crawls | adresář konfigurací crawleru a soubory se semínky specifický typ sklizně |
| reports | adresář s logy a reporty o samotne sklizni |
Definice data a času.
| dateType | format |
|---|---|
| year | yyyy |
| month | yyyy-MM |
| day | yyyy-MM-DD |
| time | yyyy-MM-DD@hhmmss |
Pokud není zdůrazněno jinak vše platí pro sekci grainery/harvest
Abstrahovaný název sklizně (abstrakce viz níže).
Další informace o metadatovém typu harvestName #v04
Jedná se o kurátorskou definici sklizně, ze které je odvozen seznam semínek odpovídajících zaměření sklizně.
Další informace o metadatovém typu harvestType #v04
| harvestType | tag | popis |
|---|---|---|
| Serials | S | Každoměsíční sklizeň (Kombinace výběrových sklizní s různou roční frekvencí ) |
| Topics | T | Speciální tématická výběrová sklizeň. Tato sklizeň se může opakovat několikrát. |
| Totals | Celoplošná sklizeň národní domény .cz ve spolupráci s CZ.NIC. Zde bohužel nenajdete semínka ani logy ze sklizní. 1 | |
| Tests | Zkušební a testovací sklizně | |
| Requests | Vyžádaná sklizeň ve spolupráci s jinou institucí | |
| Continuous | Průběžná speciální tématická výběrová sklizeň , sklízí se na denní bázi, |
Jedná se o kurátorský výběr semínek s definovanou frekvencí opakováného sklízení:
Další informace o metadatovém typu harvestFreq #v04
| harvestFreq | popis |
|---|---|
| 1M | výběr semenínek, která se mají sklízet každý měsíc |
| 2M | výběr semenínek, která se mají sklízet každý druhý měsíc |
| 3M | výběr semenínek, která se mají sklízet každé čtvrtletí |
| 6M | výběr semenínek, která se mají sklízet každý půlrok |
| 12M | výběr semenínek, která se mají sklízet jednou do roka |
| Archive_IT | výběr nových semenínek, která se mají sklízet jednorázově |
| OneShot | mimosystémově ručně přidaná další semínka, která se mají sklízet jednorázově |
Terminologie vztahující se k archivaci webu
Sklizně ve Webarchivu
Celoplošné sklizně
Metadatová specifikace projektu grainery/harvest
| Software | Version | Language | Official source of code | Utilization |
|---|---|---|---|---|
| Heritix | 3.4.0 | Java | https://github.com/internetarchive/heritrix3 | crawler |
| Seeder | Python | https://github.com/WebarchivCZ/Seeder.git | web curator tool |
- Vydefinování licence která bude pro repozitář použita
- Aktualizace a revize konfiguračních souborů crawleru pro všechny typy sklizní
- Oveření možností pro vytvoření adresáře pro logy a reporty ze sklizní
- Vytvořit muster formulař pro nahlášení "nevhodného chování" našeho crawleru
- Revize manualu ke skliznim