annotated_cat_2_labels2

AIR-GLAM

Acquisition, intégration et redistribution de données structurées dans les GLAM : harmonisation des pratiques

Session AAP :

Paris Région PhD 2023

Responsabilité scientifique :

  • Laurent Romary

Financement :

  • Région Ile-de-France
  • Inria

Descriptif :

Les GLAM (Galeries, Libraries, Archives, Museums) ont aujourd’hui pleinement intégré les opérations de transcription automatique de texte dans leurs chaînes d’acquisition de données. Cependant, la majeure partie des contenus textuels créés ou en passe de l’être sont acquis et redistribués sous une forme non-structurée (texte brut, sans formatage ni enrichissement), que l’on peut opposer au texte structuré, qui peut être appréhendé comme une base de données. L’analyse de mise en page et la structuration de l’information présentent des avantages non-négligeables : mettre en place des moteurs de recherche à facettes, ouvrir la voie aux analyses quantitatives, et permettre l’interopérabilité des données, par exemple. Ce projet de thèse a pour but d’interroger la faisabilité et la mise en place de la restructuration lors de l’acquisition de données et de la rétro-structuration, c’est-à-dire pour des contenus déjà conservés dans les collections numériques, de documents textuels au sein des GLAM, au niveau technologique et institutionnel, grâce aux technologies état de l’art en apprentissage automatique et profond, afi n de mettre à disposition des corpus plus facilement accessibles aux usagers. Il permettra de proposer des scénarios d’intégration pour structurer les contenus numériques des collections patrimoniales. La question de la modélisation des contenus est aussi cruciale, et permet de poser la question du rapport du texte à sa structuration et aux images. Le projet basera ses premières expériences sur la structuration du corpus des catalogues de vente, conservés à la Bibliothèque nationale de France, qui constituent aujourd’hui des intermédiaires vers des matériaux anciens souvent inaccessibles, ainsi que de véritables bases de connaissances sur le patrimoine. Une fois le corpus maîtrisé, les technologies utilisées seront appliquées à d’autres corpora pour étudier leur robustesse face à la diversité documentaire.
«  
»