La conférence SAGEO, organisée sous l’égide du GdR CNRS MAGIS, rassemble la communauté francophone des sciences de l’information géographique. Elle se tiendra à Avignon, du 19 au 23 mai 2025. A cette occasion, une journée d’atelier sera consacrée aux humanités numériques spatialisées à l’ère des graphes de connaissances et des grands modèles de langage.

Atelier SAGEO 2025

Présentation de l’atelier

Pour cet atelier, nous sommes donc particulièrement intéressés par des communications visant à étudier comment et dans quelle mesure les grands modèles de langage (LLM) peuvent contribuer à l’extraction, la structuration et la gestion de connaissances spatio-temporelles relatives ou imparfaites (floues, fragmentaires, incertaines, imprécises), dans le cadre des humanités numériques spatialisées ? L’atelier cherche à interroger les différentes utilisations des LLM pour la gestion des informations spatiales, temporelles ou spatio-temporelles dans le cadre le cadre des humanités numériques spatialisées :

  • Dans quelle mesure les LLM permettent-ils de reconnaître et de structurer des connaissances spatiales, temporelles ou spatio-temporelles à partir de textes ?
  • Quels sont leurs éventuels apports en matière de reconnaissances et de structuration d’informations spatio-temporelles relatives?
  • Quels types d’imperfections les LLM doivent-ils gérer dans les textes ou les graphes de connaissances ?
  • Comment évaluer la capacité des LLM à reconnaître et restituer des informations relatives ou imparfaites?
  • Comment représenter, manipuler et tirer parti de ces connaissances dans des ontologies ou des graphes de connaissances ?
  • Quelles complémentarités peuvent être mises à profit pour extraire et analyser des connaissances spatiales, temporelles ou spatio-temporelles entre approches numériques (LLM et autres modèles de langage) et symboliques (ontologies, graphes de connaissances) ?

L’objectif est d’ouvrir un espace de discussion sur ces enjeux, en croisant les perspectives de chercheurs et chercheuses de la communauté MAGIS et de spécialistes d’autres disciplines, pour faire avancer les humanités numériques autour de problématiques de spatialisation, de représentation et de raisonnement sur les objets spatio-temporels. Organisée par les actions de recherche (AR) Ontologies pour l’interdisciplinarité, Humanités numériques spatialisées et Graphes de connaissances géohistoriques, la journée d’atelier vise à la fois à dresser un aperçu des approches récentes du domaine sur ces questions et à préfigurer une possible réorganisation des AR organisatrices autour de ces enjeux.

Dates importantes

  • Date limite de soumission des résumés étendus : 21 mars 2025
  • Date de réponse aux auteurs : entre le 31 mars et le 4 avril 2025
  • Date de l’atelier : 21 mai 2025

Programme

9h30 - Introduction de la journée - mot d’accueil des AR organisatrices

9h45 - Présentation invitée : Isabelle Mougenot (Université Montpellier, UMR 228 Espace Dev)

Graphes de connaissances spatio-temporels pour l’interdisciplinaire

Résumé : Les sciences dans leur généralité se voient souvent dans l’obligation de traiter de la manière la plus appropriée qu’il soit, deux dimensions qu’elles partagent, et qui sont le temps et l’espace. Nous verrons dans cette présentation comment ces deux dimensions peuvent être représentées au sein de graphes de connaissances (KGs), et quelles peuvent en être les portées. Les KGs sont envisagés sur la base de structures inter-reliant des entités et qui facilitent à la fois la compréhension des dynamiques sous-jacentes et l’intégration de données multi-sources. Les KGs seront envisagés préférentiellement comme très fortement apparentés aux ontologies adossées aux langages du W3C (OWL 2 en particulier). A ce titre, les ontologies OWL Time (temps) et GeoSPARQL (espace) seront explorées en adéquation avec différentes thématiques (sciences du vivant et de la santé, sciences de l’environnement et humanités numériques). Les technologies, à l’exemple des systèmes de gestion de données graphes et des triplestores, qui viennent appuyer les travaux autour de la construction et la manipulation des KGs seront également brièvement introduites et illustrées. La fin de la présentation sera consacrée à la place des KGs aujourd’hui dans les IA génératives avec un focus particulier sur l’IA dite explicable (XAI), et la génération augmentée par récupération (RAG).

10h45 - Pause café

11h15 - Session LLM et information géographique

  • Guillaume Touya, Jérémy Kalsron, Laura Wenclik, Quentin Potié and Bérénice Le Mao Il s’agit d’une carte OpenStreetMap - Description de cartes par des grands modèles de langage

  • Antoine Taroni, Ludovic Moncla and Frédérique Laforest Vers une extraction automatique de structures spatiales statiques pour le français

  • Christophe Claramunt Les défis des LLMs dans la gestion et l’extraction d’informations géographiques

12h30 - Déjeuner

14h00 - Présentation invitée : Caroline Parfait (Sorbonne Université, ObTIC)

Explorer la collection Française d’ELTeC avec l’outil de cartographie textuelle Epiméthée

Résumé : Dans le cadre de l’exploration de la collection française de l’European Literary Text Collection (ELTeC), nous avons développé Épiméthée, un outil de cartographie textuelle centré sur la reconnaissance d’entités nommées (REN) géographiques. Ce projet a pour objectif de faciliter l’analyse spatiale de corpus littéraires, tout en tenant compte des défis liés à la qualité des données textuelles issues de la reconnaissance optique de caractères (OCR). En effet, les textes ainsi transcrits demeurent sujets à des erreurs, introduisant du bruit (ajouts ou substitutions) et des silences (omissions), susceptibles d’altérer la qualité des processus de REN. Une première étude conduite sur plusieurs œuvres de la collection ELTeC révèle de manière surprenante que de nombreuses entités, bien que mal orthographiées ou contaminées, sont malgré tout reconnues par les systèmes de REN. Cette analyse montre également que, contrairement à une idée largement répandue, une part significative des erreurs observées n’est pas directement imputable aux défauts de l’OCR, mais résulte des limites propres aux modèles de REN. Une seconde étude, portant sur l’impact de la correction automatique des transcriptions OCR, indique que si certaines erreurs peuvent effectivement être rectifiées, des sur-corrections introduisent de nouveaux artefacts, complexifiant ainsi l’extraction fiable des entités spatiales. Face à ces constats, nous avons conçu Épiméthée comme une chaîne de traitement intégrée, combinant la transcription OCR, l’extraction d’entités, la visualisation cartographique et des outils d’assistance au filtrage des données, notamment par la combinaison de plusieurs systèmes de REN et par l’utilisation de méthodes de clustering pour regrouper les formes contaminées d’une même entité. Cette approche vise à permettre l’exploitation effective de corpus imparfaits. À l’issue du traitement, Épiméthée fournit un fichier au format CSV, réexploitable par l’utilisateur, comportant les entités reconnues, leurs coordonnées géographiques et les regroupements réalisés.

15h00 : Pause café

15h30 : Echanges sur les actions à venir pour les AR

17h00 : Clôture

Soumission

Nous acceptons un seul format de soumissions, sous la forme de résumés étendus, allant de 3 à 5 pages au format SAGEO 2025. Dans la mesure où la langue officielle de la conférence est le français, les articles devront prioritairement être soumis en français. Les soumissions d’articles en anglais sont toutefois possibles, mais il faudra traduire le texte en français pour la version finale, en cas d’acceptation.

Les articles sélectionnés donneront lieu à des présentations orales (en français sauf impossibilité majeure).

Les actes de la journée seront regroupés dans un document pdf publié en ligne.

Organisation et comité de programme

  • Nathalie Abadie (LaSTIG, IGN)
  • Damien Arvor (UMR LETG, CNRS)
  • Carmen Brando (CRH, EHESS)
  • Bertrand Duménieu (CRH, EHESS)
  • Raphaëlle Krummeich (UMR IDEES, Univ. Rouen)
  • Éric Masson (UMR TVES, Univ. Lilles)
  • Ludovic Moncla (UMR LIRIS, INSA Lyon)