Project title: Large-scale data depth: computation and applications
Funding source: Grant ANR AAPG JCJC 2021
Funding Agency: Agence Nationale de la Recherche
Funding instrument: Jeunes Chercheuses et Jeunes Chercheurs
Evaluation committee: CE23 – Intelligence Artificielle
Project duration: 3 years
Project starting date: 1st of April 2022
Abstract in English:
Introduced by John Tukey, data depth measures centrality of an observation with respect to data. Being non-parametric, robust, and possessing attractive invariance properties, data depth substitutes density and quantiles in numerous applications. However, its large-scale applications are impeded by its computational infeasibility. LS-Depth-CaP project addresses this question in a systematic way. As the main objective, a link between statistical and computational properties of data depth should be established. Further, gradient-based optimization technique for smoothed data depth shall be developed with corresponding statistical guarantees. A Python library shall implement the obtained results. This will be used in applications: statistical analysis of the diffusion-tensor brain images and multivariate spectra of construction materials.
Résumé en français :
Introduit par John Tukey, la profondeur des données mesure la centralité d’une observation par rapport aux données. Étant non paramétrique, robuste, possédant des propriétés d’invariance attrayantes, la profondeur des données remplace la densité et les quantiles dans de nombreuses applications. Cependant, ses applications à grande échelle sont entravées par l’infaisabilité computationnelle. Le projet LS-Depth-CaP aborde cette question de manière systématique. Comme objectif principal, un lien entre les propriétés statistiques et computationnelles de la profondeur des données devrait être établi. En outre, une technique d’optimisation basée sur le gradient pour une profondeur de données lissée doit être développée avec des garanties statistiques correspondantes. Une librairie Python doit implémenter les résultats obtenus. Celle-ci sera utilisé dans des applications : analyse statistique des images cérébrales du tenseur de diffusion et spectres multivariés des matériaux de construction.
Research team:
- Principal investigator: Pavlo Mozharovskyi
- International collaborator: Stanislav Nagy
- International collaborator: Pierre Lafaye De Micheaux
- International collaborator: Vera Hofer
- PhD student: Jérémy Guérin
- Post-doc: Sibsankar Singha