Sujet de stage pré-thèse :
HistorIA -- exploration, analyse, interprétabilité de larges réseaux historiques

(English version)

Direction

Jean-Daniel Fekete, Inria (Jean-Daniel.Fekete@inria.fr)
Christophe Prieur, Télécom ParisTech & Lip6 (cprieur@enst.fr)

Résumé

L'objectif du stage est de concevoir des indicateurs et des interfaces visuelles à l'usage d'historien/nes (et plus généralement de chercheuses et chercheurs en sciences sociales) pour l'exploration de données massives issues de sources historiques, avec une forte composante d'analyse de réseaux. Le travail, axé en science des données, se fera en collaboration avec des historien/es et sociologues.

Le stage pourra se poursuivre en une thèse de doctorat, financée pour trois ans par l'institut DataIA de l'université Paris Saclay.

Motivations

Depuis le développement des méthodes big data et leur arrivée dans les sciences sociales, plusieurs initiatives très ambitieuses ont vu le jour se fixant pour objectif de changer la manière de faire de la recherche en histoire. Pourtant, le déploiement de ces nouvelles approches se heurte à de nombreuses réticences des historien/nes, qui craignent parfois d'être dépossédé/es de leur matériau de recherche lorsqu'il est transformé pour être intégré dans des bases de données, et qui sont souvent sceptiques sur la pertinence d'indicateurs parfois abscons, basés sur des données en trop grand nombre pour être appréhendées à la main.

L'un des objectifs du projet HistorIA, dans lequel s'inscrit le stage, est donc d'accorder une grande importance à l'explicabilité des indicateurs mis au point, en établissant un protocole permettant des allers-retours entre production d'éléments d'analyse et exploration interactive. Les difficultés d'interprétation donneront ainsi lieu à des corrections des algorithmes au fur et à mesure et l'ajout d'éléments de visualisation qui leur donnent sens.

Méthodes

L'analyse des réseaux pourra se faire en s'appuyant sur deux approches : l'énumération de structures élémentaires (appelées schémas, motifs ou graphlets), ou l'identification de groupes denses (clusters ou communautés). Les outils visuels d'exploration pourront s'appuyer sur le "Vistorian", une plateforme web à destination des historien/nes pour la visualisation de réseaux temporels.

vistorian screenshots

Pour améliorer la réactivité des interfaces, les algorithmes pourront utiliser le principe d'analyse progressive, paradigme de calcul original imposant un impératif de très faible temps de latence pour un degré de précision croissant dans le temps.

Collaboration

Compte tenu des sources utilisées, la connaissance de l'espagnol ou du roumain pourra être un plus.