eltec-slides/fra.html at main · distantreading/eltec-slides · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
<!doctype html>
<html>
<head>
<meta charset="utf-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0, maximum-scale=1.0, user-scalable=no">

<title>ELTeC (FR)</title>

<link rel="stylesheet" href="dist/reset.css">
<link rel="stylesheet" href="dist/reveal.css">
<link rel="stylesheet" href="dist/theme/simple.css" id="theme">
<link rel="stylesheet" href="plugin/highlight/monokai.css" id="highlight-theme">
</head>

<body>
<div class="reveal">
<div class="slides">

<section
    data-markdown=""
    data-charset="utf-8"
    data-separator="^\n--\n"
    data-separator-vertical="^\n---\n"
    data-separator-notes="^::"
    data-background-image="img/basics/distant-reading_icon.png"
    data-background-size="100px"
    data-background-position="right 10px top 10px">

<textarea data-template>

# Création, publication et analyse d'un corpus multilingue encodé en TEI : le cas de la European Literary Text Collection

<img data-src="img/basics/distant-reading_logo.png" height="40"></img>
<br/><br/>

Christof Schöch (Trèves, Allemagne)

<br/>

***
Lab5, Metz, 23 janvier 2026
<br/>https://distantreading.github.io/eltec-slides/
***
<img data-src="img/basics/tcdh-slim.png" height="50"></img>&nbsp;&nbsp;&nbsp;<img data-src="img/basics/uni-trier.png" height="50"></img>&nbsp;&nbsp;&nbsp;<img data-src="img/basics/cost-and-eu.png" height="70"></img>

::
- Bonjour à tout le monde
- C'est un plaisir d'être parmi vous.
- Je parlerai de "ELTeC"
- C'est un projet de création et d'analyse de ressources textuelles multilingues.


--
### Plan
1. [Qu'est-ce qu'ELTeC ?](#/2)
2. [Critères de composition du corpus](#/3)
3. [Principes d'encodage du texte](#/4)
4. [Publication d'ELTeC](#/5)
4. [Scénarios d'usage d'ELTeC](#/6)
5. [Conclusion](#/7)

::
- Je me propose donc de vous présenter ELTeC,
- le corpus multilingue de romans européens.
- Je parlerai d'abord des critères de composition des corpus
- Puis, des principes d'encodage en TEI des textes;
- Et, brièvement, de la stratégie de publication;
- En revanche, je parlerai un peu plus des scénarios d'usage d'ELTeC,
- avant de conclure.


--
## (1) Qu'est-ce qu'ELTeC ?

::
- Qu'est-ce que donc ELTeC ?
- Bon, l'abréviation veut dire "European Literary Text Collection"
- C'est le principal résultat de l'Action COST "Distant Reading for European Literary History"
- ELTeC reste en développement même après la fin de l'Action COST en 2022


---
### ELTeC en contexte
* COST Action "Distant Reading for European Literary History" <!-- .element: class="fragment fade-in-then-semi-out" data-fragment-index="1" -->
  * Réseau de recherche (31 pays, 200+ chercheuses et chercheurs)
  * Objectif: Relancer la recherche numérique multilingue sur l'histoire du roman européen
* Domaines d'activité:  <!-- .element: class="fragment fade-in-then-semi-out" data-fragment-index="2" -->
  * Créer un corpus multilingue du roman européen
  * Développer des méthodes de recherche numériques appropriées
  * Mener une réflexion sur les conséquences théoriques
  * Création d'un réseau de recherche à travers l'Europe
  * 'Capacity building': formations, échanges, projets


::
- L'Action COST en question est intitulée "Distant Reading for European Literary History"


---
### "European Literary Text Collection"
* Un corpus multilingue du roman européen <!-- .element: class="fragment fade-in-then-semi-out" data-fragment-index="1" -->
  * Pour la période 1840 à 1920
  * Au moins 10 langues différentes
  * Collections comparables de 100 romans pour chaque langue
* Caractéristiques-clés <!-- .element: class="fragment fade-in-then-semi-out" data-fragment-index="2" -->
  * Corpus représentant la variété de la production
  * Textes encodés en XML-TEI et annotés
  * Corpus publiés sous licence ouverte
* Plus d'informations  <!-- .element: class="fragment fade-in-then-semi-out" data-fragment-index="3" -->
  * http://www.distant-reading.net/eltec/
  * Dernier 'release': [v1.1.0, Avril 2021, 1200 romans](https://github.com/COST-ELTeC/ELTeC)
  * Actuellement: 1200 (core) + 338 (plus) + 547 (extension) = 2085 romans

::
- 1840-1920: OCR / availability; copyright; literary history (maybe naive assumptions)

---
### Progrès du travail sur ELTeC
<a href="img/eltec-overview-2023_core.png"><img data-src="img/eltec-overview-2023.png" height="500"></img></a>
<br/><small>Voir: https://distantreading.github.io/ELTeC/</small>

::
- Cliquer pour voir le "core" en plus grand
- Lien pour la version interactive


--
## (2) Critères de composition des corpus

---
### Critères de pertinence
* Romans (= prose narrative fictionelle d'une certaine longueur)
* Longueur minimale: 10.000 mots
* Romans en langue originale
* Romans parus en Europe
* Romans parus pour la première fois entre 1840 et 1920

::
- Définition du roman toute simple, sans baggage théorique / critères concernant le contenu
- parus en Europe, mais pas forément uniquement en Europe
- p.ex., romans parus au Brésil et au Portugal en même temps; mais circulation en Europe est essentielle;


---
### Critères de composition
* Objectifs <!-- .element: class="fragment fade-in-then-semi-out" data-fragment-index="1" -->
  * Comparabilité des collections
  * Représenter la variabilité de la production romanesque
  * Aller au-delà des textes canonisés
* Critères inclus <!-- .element: class="fragment fade-in-then-semi-out" data-fragment-index="2" -->
  * Période de parution : 1840-59, 1860-79, 1880-99, 1900-1919
  * Longueur du texte : short (10-50k), medium (50-100k), long (100k+)
  * Sexe de l'auteur(e) : masculin, féminin, divers/mixte
  * Réimpressions 1970-2010: low (0-1), high (2+)
  * Romans par auteur(e) : 9-11 x 3, sinon 1

::
- Période de parution: dispersion des textes à travers la période entière (difficile pour certaines traditions littéraires)
- Longueur: egalement difficile dans certains cas
- Sexe: problème est d'assurer un minimum de textes d'auteurs féminines (10% minimum, 50% maximum)
- Réimpressions : pour représenter un aspect de la canonicité des textes
- Romans par auteur: rendre possible la stilométrie (attribution d'auteur), mais maintenir l'objectif de la variété


---
#### Composition des collections
<img data-src="img/mosaic-eng.svg" height="400"></img>&nbsp;&nbsp;&nbsp;<img data-src="img/mosaic-rom.svg" height="400"></img>

<small>

|ELTeC-eng|||ELTeC-rom|
|:---:|:---:|:---:|:---:|
|100 romans |&nbsp;&nbsp;&nbsp;&nbsp;|&nbsp;&nbsp;&nbsp;&nbsp;| 100 romans|
|EC5 100 |&nbsp;&nbsp;&nbsp;&nbsp;|&nbsp;&nbsp;&nbsp;&nbsp;| EC5 83|
|excellente balance |&nbsp;&nbsp;&nbsp;&nbsp;|| balance difficile à obtenir|

</small>

---
#### Le paradoxe de la diversité
<a href="img/eltec-overview_paradox.png"><img data-src="img/eltec-overview_paradox.png" height="300"></img></a>

* Objectifs concurrents  <!-- .element: class="fragment fade-in-then-semi-out" data-fragment-index="1" -->
  * variété des traditions littéraires, y compris mineures (=> critères souples)
  * variété des textes dans chaque collection, y compris non-canoniques (=> critères stricts)
* Conditions supplémentaires <!-- .element: class="fragment fade-in-then-semi-out" data-fragment-index="2" -->
  * Comparabilité des collections (=> critères stricts)
  * Manque d'expertise au moment de la conception tu projet

::
- On a essayé de réduire les effets du paradoxe en ayant des critères ambitieux mais assouplis
- C'est d'ailleurs un dilemme récurrent : avec plusieurs langues, tout est plus difficile ; on fait donc presque forcément des choses techniquement moins avancées ; mais pas moins intéressantes ou complexes.


--
## (3) Principes d'encodage<br/> des textes

---
### Trois niveau d'encodage
* L'encodage en XML-TEI va de soi <!-- .element: class="fragment fade-in-then-semi-out" data-fragment-index="1" -->
* Il y a un 'header' commun <!-- .element: class="fragment fade-in-then-semi-out" data-fragment-index="2" -->
* Les trois niveaux <!-- .element: class="fragment fade-in-then-semi-out" data-fragment-index="3" -->
  * Level 0: encodage TEI minimal (métadonnés + `div`, `p`, `hi`)
  * Level 1: encodate TEI sémantique (p.ex. `hi` => `foreign`, `emph` etc.)
  * Level 2: encodage TEI avec annotation au niveau des token (UPos)
* Contrôlés par des schémas <!-- .element: class="fragment fade-in-then-semi-out" data-fragment-index="4" -->
  * Système des ODD enchaînés, voir [How to chain](https://teic.github.io/TCW/howtoChain-fr.html)
  * Validation avec RelaxNG et Schématron

::
- Le "ODD chaining": l'idée, c'est de produire plusieurs ODD en les dérivant les uns des autres;
- Au lieu de choisir les élements dans TEI P5, on les choisit dans une ODD spécifique
- Dans notre case: on prend les éléments du ODD précédant, et on y ajoute des éléments supplémentaires de la TEI P5 ;
- surtout du level 1 au level 2: ajouter des attributs pour l'annotation linguistique


---
### Métadonnées
* Critères de composition (voir ci-dessus) <!-- .element: class="fragment fade-in-then-semi-out" data-fragment-index="1" -->
* Provenance <!-- .element: class="fragment fade-in-then-semi-out" data-fragment-index="2" -->
  * source numérique
  * source imprimée
  * première édition
* Type de roman <!-- .element: class="fragment fade-in-then-semi-out" data-fragment-index="3" -->
  * Forme narrative (rarement)
  * Sous-genre du roman (très rarement)
* Caractéristiques textuels <!-- .element: class="fragment fade-in-then-semi-out" data-fragment-index="4" -->
  * Langue
  * Orthographe (originale, modernisée)
  * Alphabet (latin, cyrillique, de transition)
  * Niveau d'encodage (voir ci-dessus)

::
- critères de composition: période de publication, sexe de l'auteur, longueur du texte, réimpressions
- type de roman : rarement, parce qu'impossible d'appliquer systématiquement à travers toutes les traditions littéraires
- pour certaines langues, l'alphabet est essentiel, parce que changeant (Serbe, Roumain)

--
## (4) Publication d'ELTeC


---
### Stratégie de publication
* Pour les besoins du projet <!-- .element: class="fragment fade-in-then-semi-out" data-fragment-index="1" -->
  * Espace de collaboration (XML) : [Github](https://github.com/cost-eltec)
  * Publication de 'releases' avec DOI (XML) : Github + [Zenodo](https://zenodo.org/communities/eltec/)
  * Apercu d'ensemble (HTML, XML) : [Github.io](https://distantreading.github.io/ELTeC/)
* Plateformes de publication (en plus de Zenodo):  <!-- .element: class="fragment fade-in-then-semi-out" data-fragment-index="2" -->
  * [TEI Publisher](https://teipublisher.com/exist/apps/eltec/index.html)
  * [GAMS](http://glossa.uni-graz.at/context:eltec)
  * [TextGrid](https://dev.textgridrep.org/browse/3tg6g.0)
* D'autres formats de publication  <!-- .element: class="fragment fade-in-then-semi-out" data-fragment-index="3" -->
  * Fichier à télécharger, pour l'analyse avec des outils comme TXM ou Antconc
  * Publication via des plateformes d'analyse comme TEI:TOK

---
#### Github
<img data-src="img/eltec_github.png" height="500"></img>

https://github.com/cost-eltec


---
#### Zenodo
<img data-src="img/eltec_zenodo.png" height="500"></img>

https://zenodo.org/communities/eltec/

---
#### TEI Publisher
<img data-src="img/eltec_teip.png" height="500"></img>

https://teipublisher.com/exist/apps/eltec/index.html

---
#### TEI:TOK
<img data-src="img/eltec-in-teitok.png" height="500"></img>

https://quest.ms.mff.cuni.cz/teitok-dev/teitok/eltec/index.php


--
## (5) Scénarios d'usage d'ELTeC

---
### Quelques scénarios
* Objectifs partagées <!-- .element: class="fragment fade-in-then-semi-out" data-fragment-index="1" -->
  * Adapter des méthodes existantes du "Distant Reading" aux multiples langues européennes
  * Evaluer les méthodes dans un context multilingue
* Quelques exemples <!-- .element: class="fragment fade-in-then-semi-out" data-fragment-index="2" -->
  * Annotation linguistique à travers de multiples langues: Cínkova et al. 2020
  * Annotation multilingue des entités nommées: Frontini et al. 2020
  * Identification du discours direct: Byszuk et al. 2020
  * Analyse des titres: Patras et al. 2021
  * Méthodes d'attribution stilométrique: Schöch et al.
  * Verbes de l'intériorité à travers le temps : Radak et al.
  * Longueur des phrases à travers le temps : Schöch 2022


---
### Identification du discours direct
<img data-src="img/byszuk-2020.png" height="400"></img>

* Résultats-clés
  * Emploi d'un "multilingual sentence embedding"
  * Résultat: score F1 ~ 0.89 pour neuf langues


---
### Analyse des titres
<img data-src="img/patras-2021_annotation.png" width="500"></img>
<br/><img data-src="img/patras-2021_lengths.png" width="500"></img>

::
- D'abord annotation des propriétés structurelles des titres
- Puis analyse de leur distribution à travers les métadonnées
- Par exemple, distribution de la longueur des titres; souvent très brefs!

---
### Longueur des phrases, 1840-1920
<img data-src="img/avgsentlensregression-1.png" width="450"></img>&nbsp;&nbsp;&nbsp;<img data-src="img/avgsentlensregression-6.png" width="450"></img>

Allemand (21=>15\*\*\*) vs. French (23=>19, ns)

::
- Une analyse sur la longueur des phrases
- Est-ce qu'il y a une baisse de la longueur moyenne des phrases ?
- Pour la plupart des corpus, c'est oui ; mais pour le francais, non!


---
### Stilométrie: Evaluation
<a href="img/results_ELTeC-hun.svg"><img height="200" data-src="img/delta-hun.png"></a></img>&nbsp;&nbsp;&nbsp;<a href="img/results_ELTeC-fra.svg"><img height="200" data-src="img/delta-fra.png"></img></a><br/><a href="img/results_ELTeC-rom.svg"><img height="200" data-src="img/delta-rom.png"></a></img>&nbsp;&nbsp;&nbsp;<a href="img/results_ELTeC-slv.svg"><img height="200" data-src="img/delta-slv.png"></img></a><br/><br/>(Actuellement: deu, eng, fra, hun, por, rom, slv)

::
- Une analyse en cours
- Beaucoup de différences entre les corpus
- Mais pourquoi ? À cause de la composition du corpus (facile, difficile) ou à cause de la langue?
- On travaille là-dessus en ce moment ;


---
### Verbes de l'intériorité
<img data-src="img/fra_1750-2000_all-perNovel.png" height="500"></img>

Trois corpus (pour le français), dont ELTeC-fra (core+ext)

::
- Enfin, une seconde analyse en cours, portant sur la modernité dans le roman
- Un aspect: une forme différente d'exprimer l'intériorité ; plus par le biais de l'apparence qu'en l'exprimant explicitement (showing instead of telling)
- Mais pour l'instant, on ne peut pas détecter une différence significative des verbes de l'intériorité (penser

--
## Conclusion

---
### Qu'est-ce qu'ELTeC, alors ?
* Bien sûr, une ressource multilingue <!-- .element: class="fragment fade-in-then-semi-out" data-fragment-index="1" -->
* Un processus d'apprentissage de la recherche collaborative <!-- .element: class="fragment fade-in-then-semi-out" data-fragment-index="2" -->
* Un point de ralliement pour une communauté européenne, multilingue <!-- .element: class="fragment fade-in-then-semi-out" data-fragment-index="3" -->
* Un point d'appui pour le développement de méthodes numériques <!-- .element: class="fragment fade-in-then-semi-out" data-fragment-index="4" -->
* Un début modeste pour une histoire littéraire européene qui soit numérique, inclusive, multilingue <!-- .element: class="fragment fade-in-then-semi-out" data-fragment-index="5" -->


---
### Un grand merci !
<img height="500" data-src="img/danke.png">


---
### Références bibliographiques
<small>

* Création d'ELTeC (choix)
  * Lou Burnard, Christof Schöch, Carolin Odebrecht: “In Search of Comity: TEI for Distant Reading”, in: _Journal of the Text Encoding Initiative_, 2021. https://doi.org/10.4000/jtei.3500
  * Christof Schöch, Roxana Patraș, Diana Santos, Tomaž Erjavec: “Creating the European Literary Text Collection (ELTeC): Challenges and Perspectives”, in: _Modern Languages Open_ (forthcoming). Preprint: https://doi.org/10.5281/zenodo.4742419
  * Cinková, Silvie, Tomaž Erjavec, Cláudia Freitas, et al., ‘Evaluation of Taggers for 19th-Century Fiction’, in DH_Budapest_2019, <http://elte-dh.hu/dh_budapest_2019-abstract-booklet/>
  * Frontini, Francesca, Carmen Brando, Joanna Byszuk et al., ‘Named Entity Recognition for Distant Reading’, in CLARIN Annual Conference 2020 Proceedings, pp. 27–41 <https://office.clarin.eu/v/CE-2020-1738-CLARIN2020_ConferenceProceedings.pdf>
<br/><br/>

* Utilisations d'ELTeC (choix)
  * Cinková, Silvie, and Jan Rybicki, ‘Stylometry in a Bilingual Setup’, in Proceedings of LREC 2020, pp. 977–984 <https://www.aclweb.org/anthology/2020.lrec-1.123/>
  * Byszuk, Joanna, Michał Woźniak, Mike Kestemont et al. ‘Detecting Direct Speech in Multilingual Collection of 19th Century Novels’, in Proceedings of LT4HALA 2020, pp. 100–104 <https://lrec2020.lrec-conf.org/media/proceedings/Workshops/Books/LT4HALAbook.pdf>
  * Mihurko-Poniž, Katja, Rosario Arias, J. Berenike Herrmann et al. ‘Thresholds to the “Great Unread”: Titling Practices across Multilingual Collections of European Novels’, Day of DH 2021, <https://www.youtube.com/watch?v=fMtkwCxkzfw>.
  * Christof Schöch: "Do Sentences in Novels Get Shorter over the Course of the Nineteenth Century?", The Dragonfly's Gaze, 2022, <https://dragonfly.hypotheses.org/1152>.

</small>

</textarea>
</section>
</div>
</div>

<script src="dist/reveal.js"></script>
<script src="plugin/notes/notes.js"></script>
<script src="plugin/markdown/markdown.js"></script>
<script src="plugin/highlight/highlight.js"></script>
<script>
// More info about initialization & config:
// - https://revealjs.com/initialization/
// - https://revealjs.com/config/
Reveal.initialize({
hash: true,
center: false,
controls: true,
progress: true,

// Learn about plugins: https://revealjs.com/plugins/
plugins: [ RevealMarkdown, RevealHighlight, RevealNotes ],
});
</script>
</body>
</html>