Projet ANR MLVIS (mars 2012- fevrier 2016)


Objectifs du projet




L’objectif du projet est la conception d’outils d’apprentissage statistique pour l’automatisation des tâches d’accès à l’information dans le contexte des grands media sociaux comme Flickr ou Youtube.

Les media sociaux qui sont une source majeure d’informations, nécessitent de développer une vision nouvelle de l’accès, du partage et de la diffusion d’informations. En effet, la vision traditionnelle a été bâtie sur le concept de recherche effectuée par un utilisateur unique et seul dans des collections homogènes. Dans le cadre des médias sociaux, les utilisateurs sont connectés, l’information y est multiple, hétérogène, organisée dans de grands réseaux contenant des connections multiples entre des éléments de contenu et des utilisateurs. Les usages et méthodes pour répondre à un besoin d’informations doivent donc être reconsidérés à partir du paradigme des réseaux complexes d’informations.

D’un autre côté, l’apprentissage automatique est devenu depuis les dix dernières années une technologie majeure pour l’analyse et l’exploitation d’informations sémantiques. Dans ce contexte aussi les concepts clefs du domaine ont été développés pour l’analyse d’objets simples comme des données indépendantes voire des séquences. Très récemment, des objets plus complexes comme des structures ont été considérés particulièrement dans le cadre de la bio-informatique mais aussi pour l’analyse du Web. Le développement de nouveaux concepts, méthodes et algorithmes pour la modélisation et l’analyse de réseaux de contenu complexes constitue aussi un challenge important du domaine. Il fait l’objet du projet proposé : revisiter les méthodes de l’apprentissage automatique dans le contexte de l’accès à l’information organisées dans des réseaux complexes.

Nous nous intéresserons particulièrement à deux tâches fondamentales de l’apprentissage : la classification supervisée et l’ordonnancement. Ces tâches génériques entre directement dans la résolution de tout un panel d’applications de recherche d’informations. Elles peuvent être utilisées soit seules (pour des problèmes d’étiquetage par exemple), soit dans une chaîne plus complexe de traitements. Le projet vise à investir différentes directions de recherche afin d’inventer de nouveaux algorithmes d’apprentissage - noyaux structurés et contextuels, méthodes de classification collective et méthodes transductives de propagation d’informations dans notre cas. Une tâche particulière du projet s’intéresse quant à elle à l’unification des différentes méthodes proposées. Plus particulièrement, nous investirons les méthodes de sélection et de combinaisons de modèles.

En plus de l’aspect théorique et algorithmique de la contribution, nous nous intéresserons à une application concrète, complexe, et représentative : l’annotation de vidéos et d’images dans les grands media et réseaux sociaux. Pour cela, nous collecterons des données sociales sur différents sites communautaires afin de construire une collection pour l’évaluation. Les modèles standards ainsi que les méthodes originales développées dans le projet seront évalués sur cette collection.




Partenaires


LIP6: Laboratoire d'informatique de Paris 6, Université Pierre et Marie Curie.


LTCI: Laboratoire de traitement et communication de l'information, UMR 5141 CNRS, Telecom ParisTech, (coordinateur du projet).




Project Contributions


Publications