MR-PEG : archives : 2007

jeudi 18 janvier - 16h - C49
Reconnaissance de caracteres degrades par reseaux Bayesiens dynamiques
Laurence Likforman
We investigate the application of dynamic Bayesian networks (DBNs) to the recognition of handwritten digits. The main idea is to couple two separate HMMs into various architectures. First, a vertical HMM and a horizontal HMM are built observing the evolving streams of image columns and image rows respectively. Then, two coupled architectures are proposed to model interactions between these two streams and to capture the 2D nature of character images. Experiments performed on the MNIST handwritten digit database show that coupled architectures yield better recognition performances than non-coupled ones. Additional experiments conducted on artificially degraded (broken) characters demonstrate that coupled architectures better cope with such degradation than non coupled ones and than discriminative methods such as SVMs.
jeudi 18 janvier - 15h - C49
Nouveaux outils sur l’utilisation de la couleur et la segmentation en Morphologie Mathématique
Raffi Enficiaud
La Morphologie Mathématique est une discipline proposant un grand nombre d’opérateurs pour le traitement d’image. Nous présenterons de nouvelles méthodes issues de nos travaux de recherche. Nous orienterons la discussion sur l’utilisation de la couleur et les algorithmes de segmentation.
La couleur est une information pertinente pour la résolution de nombreuses applications en traitement d’image. Cependant son utilisation en Morphologie Mathématique est assez récente. Nous présentons trois approches : la première, métrique, est rendue possible par l’utilisation d’une fonction de distance sur l’espace couleur. La seconde se base sur l’utilisation d’une mesure statistique locale dans une représentation couleur de type circulaire (espace HLS). Enfin la troisième approche, algébrique, est possible grâce à l’utilisation de relations lexicographiques d’ordre. Les deux premières méthodes permettent de définir des gradients couleurs, alors que la troisième offre un cadre algébrique complet pour l’extension des traitements et algorithmes « classiques » à la couleur.
La ligne de partage des eaux est un algorithme puissant de création de partition, et son utilisation est courante en traitement d’image. L’algorithme de F. Meyer à base de files d’attente hiérarchiques permet de la calculer efficacement. Grâce au cadre de programmation que nous avons construit, nous pouvons sans limitation l’appliquer à des images de dimension quelconque. Nous modifions ensuite cet algorithme pour inclure des contraintes sur la construction des régions, et de manière à maîtriser le résultat plus finement que pour l’algorithme classique. La première modification implique une fonction de « coût » calculée sur la totalité de la région, la deuxième concerne la forme du front de propagation lors de la création de la partition et permet de simuler le comportement d’un liquide « visqueux ».
Nous verrons pour chaque cas un exemple applicatif concret, issu soit du domaine de la sécurité automobile, soit de la vidéosurveillance.
jeudi 22 mars - 14h - B312
Vers le temps réel en transcription automatique de la parole grand vocabulaire (soutenance)
Leila Zouari
Le principal frein à l'utilisation des systèmes de reconnaissance automatique de la parole grand vocabulaire relève aujourd'hui principalement de leur relative lenteur d'exécution, lenteur rendant par exemple complexe leur portage dans des environnements pauvres en ressources calculatoires (PDA, etc.). L'étude réalisée au cours de cette thèse a ainsi porté sur la recherche de méthodes efficaces d'accélération de la reconnaissance.
Une première phase d'étude des méthodes d'accélération du décodage et en particulier de celles liées à la limitation du nombre de densités, nous a permis de regrouper celles-ci en trois catégories distinctes selon qu'elles se basent sur le partitionnement hiérarchique, sur la classification de type k-moyennes ou sur la sous-quantification vectorielle. Notre travail a consisté à étudier et à améliorer les méthodes issues de chacune de ces catégories.
Les contributions de notre étude se déclinent alors en trois propositions concernant respectivement le partitionnement hiérarchique multi-niveaux, la sélection contextuelle des gaussiennes par regroupement k-moyennes et la sous-quantification vectorielle contextuelle.
Les expériences ont montré un gain important en termes de réduction du nombre de densités calculées puisque cette réduction se mesure autour de 87% sans perte de performances.
lundi 12 novembre - 14h - C229
Modèles de langage intégrant des contraintes morphologiques (présoutenance)
Antoine Ghaoui (University of Balamand)
L'introduction des contraintes morphologiques dans la modélisation statistique de la langue arabe prend un intérêt particulier car la langue arabe présente une morphologie très riche. Le choix de base dans cette thèse est d'intégrer l'information morphologique sous la forme de classes. En effet, les modèles à base de classes ont prouvé leur efficacité. Ces modèles apportent un plus pour l'adaptation et pour l'apprentissage de modèles à partir de bases de données réduites, et ils nécessitent généralement un espace mémoire réduit. Les travaux présentés dans cette thèse, permettent d'explorer la possibilité de proposer des modèles robustes incluant des contraintes morphologiques. Partant de l'hypothèse que les mots sont formés de triplets (racines, règles, types), un cadre général est proposé et plusieurs modèles N-gram à base de classes sont dérivés. En utilisant ces modèles des résultats satisfaisants sont obtenus tout en réduisant le nombre de paramètres. Pour les langues riches en structures morphologiques comme la langue arabe, l'idée consiste à séparer la dépendance du mot à son contexte en deux dépendances ; une dépendance entre la racine des mots et les racines du contexte et, une autre dépendance entre les règles morphologiques et les racines. Cette simplification nous a permis de réduire considérablement le nombre de paramètres au prix d'une perte limitée de la perplexité. La réintroduction de la dépendance entre les règles morphologiques et les règles morphologiques du contexte a rendu le modèle bien riche mais ceci a augmenté significativement le nombre de paramètres. Ce qui a demandé une factorisation des règles du contexte en utilisant l algorithme des K-means. Les résultats obtenus par cette approche sont satisfaisants et surtout l interpolation linéaire avec le modèle N-gram de base qui a permis une réduction de 13% de la perplexité. Nous nous sommes intéressés ensuite aux modèles de langage à base de facteurs. Là nous avons considéré l information morphologique comme facteurs caractérisant les mots. Le modèle ainsi défini donne une meilleure perplexité que le N-gram de base mais au prix d une augmentation du nombre de paramètres. Ceci prouve que l information morphologique apporte à la modélisation du langage et que les approches proposées précédemment font introduire cette information tout en réduisant le nombre de paramètres. La dernière partie des travaux est consacrée à l ambigüité qui peut existe lors d une analyse morphologique. Cette ambigüité est augmentée dans le cas de la langue arabe vu que les mots du dictionnaire sont non-vocalisés. De nombreuses décompositions morphologiques sont ainsi possibles par mot. Ceci nous a poussés à proposer un modèle morpho-linguistique intégré. En effet, on pense que la décomposition morphologique dépend du contenu linguistique et vice versa. Ce qui justifie cette intégration des deux informations. Lors de l analyse linguistique d une phrase on suppose que plusieurs décompositions morphologiques sont possibles et que la bonne décomposition des mots est une information cachée. On sélectionne la décomposition optimale selon le critère de maximum de vraisemblance au niveau linguistique.
l mardi 13 novembre - 10h - C46
Speaker transformation and its application to audio-visual speaker verification (présoutenance)
Walid Karam (University of Balamand)
With the emergence of smart phones and third and fourth generation mobile and communication devices, and the appearance of a "first generation" type of mobile PC/PDA/phones with biometric identity verification, there has been recently a greater attention to secure communication and to guaranteeing the robustness of embedded multi-modal biometric systems. The robustness of such systems promises the viability of newer technologies that involve e-voice signatures, e-contracts that have legal values, and secure and trusted data transfer regardless of the underlying communication protocol. The robustness of a biometric identity verification system is best evaluated by monitoring the behavior of the system under impostor attacks. Such attacks may include the transformation of one, many, or all of the biometric modalities, such as face or voice. In this work, we describe the effect of voice transformation on an audio-visual speaker verification system and the corresponding experimental results on the BANCA talking-face database. MixTrans, a novel mixture-structured bias voice transformation in the cepstral domain, is introduced as an imposture procedure to evaluate its effects on the verification system. We also propose an extension to MixTrans, a signal-level stochastic technique for voice transformation, which allows a reconstructed "forged" speech signal to be audibly perceived, in addition to monitoring its effects on the verification system. It has been proved that voice transformation that attempts to mimic a target speaker (client) can affect the performance of the biometric verification system.
mardi 13 novembre - 14h - B312
Vérification biométrique d'identité basée sur les visages parlants. Apport de la mesure de synchronie audiovisuelle face aux tentatives d'imposture élaborées (soutenance)
Herve Bredin
maercredi 14 novembre - 14h - DB406
Acoustic modeling for multilingual speech recognition (thèse en cours)
Rania Bayeh (University of Balamand and ENST)
Despite the ongoing research in multilingual speech recognition during the past years, several problems still exist. One of the most complicated aspects of multilingual speech recognition is the creation of universal acoustic models. Several approaches have been proposed for this purpose: some as simple as combining the models of two or more languages in a single set and conducting recognition, and others such as porting models from a highly resourced language to another less resourced language. Our initial experiments in this field involved using more or less simple methods to associate phonetic units and their corresponding models between French and Arabic. The transformation of these universal units was based on adaptation functions of Hidden Markov Models (HMM). Using robust French phoneme models and a very limited Arabic inhouse telephony speech database, a reliable isolated word recognizer for Arabic was created. However, isolated word recognizers are not very practical and have very limited use. Therefore, for this reason and others, a broadcast news database was selected and the same approach was implemented. Based on the theoretical framework of adaptation techniques, more complex adaptation functions were then defined. In addition, different combinations methods using classification trees were proposed. This presentation will provide a brief introduction to multilingual speech recognition and describe the various techniques used in the creation of our system. It will also describe the experiments conducted and their corresponding results. Finally conclusions will be presented and a general outline of the remaining work will be discussed.
mercredi 14 novembre - 15h30 - DB406
Speaker Recognition: Definition, Progress, and future developments (thèse en phase initiale)
Claudia Mattar (University of Balamand)
Speaker recognition is a biometric modality that uses an individual's voice for recognition purposes. The speaker recognition procedure relies on features influenced by both the physical structure of an individual's vocal tract and the behavioral characteristics of the individual. Over the past years, Gaussian Mixture Model has been the dominant approach for modeling in text independent speaker recognition applications. We will describe the development and the evaluation of Gaussian Mixture Model-Universal Background Model (GMM-UBM) system as applied in NIST SRE corpora for single speaker detection. We will present also the basic speaker verification/detection task and the likelihood ratio detector approach used to address it. This approach has been experimented, we will show the experiments and, so far, the obtained results of GMM-UBM system on the NIST SRE corpora. The literature review shows that several techniques could be included to improve the performance of our baseline system. A synthesis of this study will be provided and a roadmap will be proposed to build this advanced system. Once achieved, it is suggested to apply the 'Piecewise GMM'' (PGMM) for speaker recognition. Actually, modeling by PGMM has been proposed to make the segmentation of a video by seeking some sort of consistency in terms of stochastic pixels and time. It is suggested to apply the same approach, within the frame of a PhD work, to segment an audio sequence to coherent parts at acoustics level while using at the same time this modeling for recognition purposes.
mardi 18 decembre - 14h00 - DA006 Vitrine de la Recherche
Goal Event Detection in Broadcast Soccer Videos
Yina Han (Xi'an Jiaotong University of China and ENST)
As the amount of digital video has been increasing rapidly in recent years, some innovative functionalities, such as video summarization, indexing and events detection, are required. Take goal event detection in broadcast soccer video as an example, based on my previous study on low-level features and supervised statistical learning which has the drawback of lack of high-level semantics and requiring large training dataset respectively, we propose a novel algorithm to solve this problem. First a 2-D mid-level feature is extracted in the shot view layer, of which the dimension represents the typical temporal pattern of view types and the value equals to the number of frames involved in each view. Then unsupervised fuzzy c-means (FCM) algorithm is applied on this feature space and defuzzification by combining the information of membership degree and the number of goals is employed to detect goal events. The effectiveness and the robustness of the proposed algorithm are demonstrated over five half matches produced by different broadcast stations.