jeudi 18 janvier - 16h - C49
Reconnaissance de caracteres degrades par reseaux Bayesiens dynamiques
Laurence Likforman
We investigate the application of dynamic Bayesian networks (DBNs) to the recognition of handwritten digits. The main idea is to couple two separate HMMs into various architectures. First, a vertical HMM and a horizontal HMM are built observing the evolving streams of image columns and image rows respectively. Then, two coupled architectures are proposed to model interactions between these two streams and to capture the 2D nature of character images. Experiments performed on the MNIST handwritten digit database show that coupled architectures yield better recognition performances than non-coupled ones. Additional experiments conducted on artificially degraded (broken) characters demonstrate that coupled architectures better cope with such degradation than non coupled ones and than discriminative methods such as SVMs.
jeudi 18 janvier - 15h - C49
Nouveaux outils sur l’utilisation de la couleur et la segmentation en Morphologie Mathématique
Raffi Enficiaud
La Morphologie Mathématique est une discipline proposant un grand nombre d’opérateurs pour le traitement d’image. Nous présenterons de nouvelles méthodes issues de nos travaux de recherche. Nous orienterons la discussion sur l’utilisation de la couleur et les algorithmes de segmentation.
La couleur est une information pertinente pour la résolution de nombreuses applications en traitement d’image. Cependant son utilisation en Morphologie Mathématique est assez récente. Nous présentons trois approches : la première, métrique, est rendue possible par l’utilisation d’une fonction de distance sur l’espace couleur. La seconde se base sur l’utilisation d’une mesure statistique locale dans une représentation couleur de type circulaire (espace HLS). Enfin la troisième approche, algébrique, est possible grâce à l’utilisation de relations lexicographiques d’ordre. Les deux premières méthodes permettent de définir des gradients couleurs, alors que la troisième offre un cadre algébrique complet pour l’extension des traitements et algorithmes « classiques » à la couleur.
La ligne de partage des eaux est un algorithme puissant de création de partition, et son utilisation est courante en traitement d’image. L’algorithme de F. Meyer à base de files d’attente hiérarchiques permet de la calculer efficacement. Grâce au cadre de programmation que nous avons construit, nous pouvons sans limitation l’appliquer à des images de dimension quelconque. Nous modifions ensuite cet algorithme pour inclure des contraintes sur la construction des régions, et de manière à maîtriser le résultat plus finement que pour l’algorithme classique. La première modification implique une fonction de « coût » calculée sur la totalité de la région, la deuxième concerne la forme du front de propagation lors de la création de la partition et permet de simuler le comportement d’un liquide « visqueux ».
Nous verrons pour chaque cas un exemple applicatif concret, issu soit du domaine de la sécurité automobile, soit de la vidéosurveillance.
La couleur est une information pertinente pour la résolution de nombreuses applications en traitement d’image. Cependant son utilisation en Morphologie Mathématique est assez récente. Nous présentons trois approches : la première, métrique, est rendue possible par l’utilisation d’une fonction de distance sur l’espace couleur. La seconde se base sur l’utilisation d’une mesure statistique locale dans une représentation couleur de type circulaire (espace HLS). Enfin la troisième approche, algébrique, est possible grâce à l’utilisation de relations lexicographiques d’ordre. Les deux premières méthodes permettent de définir des gradients couleurs, alors que la troisième offre un cadre algébrique complet pour l’extension des traitements et algorithmes « classiques » à la couleur.
La ligne de partage des eaux est un algorithme puissant de création de partition, et son utilisation est courante en traitement d’image. L’algorithme de F. Meyer à base de files d’attente hiérarchiques permet de la calculer efficacement. Grâce au cadre de programmation que nous avons construit, nous pouvons sans limitation l’appliquer à des images de dimension quelconque. Nous modifions ensuite cet algorithme pour inclure des contraintes sur la construction des régions, et de manière à maîtriser le résultat plus finement que pour l’algorithme classique. La première modification implique une fonction de « coût » calculée sur la totalité de la région, la deuxième concerne la forme du front de propagation lors de la création de la partition et permet de simuler le comportement d’un liquide « visqueux ».
Nous verrons pour chaque cas un exemple applicatif concret, issu soit du domaine de la sécurité automobile, soit de la vidéosurveillance.
jeudi 22 mars - 14h - B312
Vers le temps réel en transcription automatique
de la parole grand vocabulaire (soutenance)
Leila Zouari
Le principal frein à l'utilisation des systèmes de reconnaissance automatique de la parole
grand vocabulaire relève aujourd'hui principalement de leur
relative lenteur d'exécution, lenteur rendant par exemple
complexe leur portage dans des environnements pauvres en
ressources calculatoires (PDA, etc.). L'étude réalisée au cours
de cette thèse a ainsi porté sur la recherche de méthodes
efficaces d'accélération de la reconnaissance.
Une première phase d'étude des méthodes d'accélération du décodage et en particulier de celles liées à la limitation du nombre de densités, nous a permis de regrouper celles-ci en trois catégories distinctes selon qu'elles se basent sur le partitionnement hiérarchique, sur la classification de type k-moyennes ou sur la sous-quantification vectorielle. Notre travail a consisté à étudier et à améliorer les méthodes issues de chacune de ces catégories.
Les contributions de notre étude se déclinent alors en trois propositions concernant respectivement le partitionnement hiérarchique multi-niveaux, la sélection contextuelle des gaussiennes par regroupement k-moyennes et la sous-quantification vectorielle contextuelle.
Les expériences ont montré un gain important en termes de réduction du nombre de densités calculées puisque cette réduction se mesure autour de 87% sans perte de performances.
Une première phase d'étude des méthodes d'accélération du décodage et en particulier de celles liées à la limitation du nombre de densités, nous a permis de regrouper celles-ci en trois catégories distinctes selon qu'elles se basent sur le partitionnement hiérarchique, sur la classification de type k-moyennes ou sur la sous-quantification vectorielle. Notre travail a consisté à étudier et à améliorer les méthodes issues de chacune de ces catégories.
Les contributions de notre étude se déclinent alors en trois propositions concernant respectivement le partitionnement hiérarchique multi-niveaux, la sélection contextuelle des gaussiennes par regroupement k-moyennes et la sous-quantification vectorielle contextuelle.
Les expériences ont montré un gain important en termes de réduction du nombre de densités calculées puisque cette réduction se mesure autour de 87% sans perte de performances.
lundi 12 novembre - 14h - C229
Modèles de langage intégrant des contraintes morphologiques
(présoutenance)
Antoine Ghaoui (University of Balamand)
L'introduction des contraintes morphologiques dans la modélisation
statistique de la langue arabe prend un intérêt particulier car la
langue arabe présente une morphologie très riche. Le choix de base dans
cette thèse est d'intégrer l'information morphologique sous la forme de
classes. En effet, les modèles à base de classes ont prouvé leur
efficacité. Ces modèles apportent un plus pour l'adaptation et pour
l'apprentissage de modèles à partir de bases de données réduites, et ils
nécessitent généralement un espace mémoire réduit. Les travaux présentés
dans cette thèse, permettent d'explorer la possibilité de proposer des
modèles robustes incluant des contraintes morphologiques. Partant de
l'hypothèse que les mots sont formés de triplets (racines, règles,
types), un cadre général est proposé et plusieurs modèles N-gram à base
de classes sont dérivés. En utilisant ces modèles des résultats
satisfaisants sont obtenus tout en réduisant le nombre de paramètres.
Pour les langues riches en structures morphologiques comme la langue
arabe, l'idée consiste à séparer la dépendance du mot à son contexte en
deux dépendances ; une dépendance entre la racine des mots et les
racines du contexte et, une autre dépendance entre les règles
morphologiques et les racines. Cette simplification nous a permis de
réduire considérablement le nombre de paramètres au prix d'une perte
limitée de la perplexité. La réintroduction de la dépendance entre les
règles morphologiques et les règles morphologiques du contexte a rendu
le modèle bien riche mais ceci a augmenté significativement le nombre de
paramètres. Ce qui a demandé une factorisation des règles du contexte en
utilisant l algorithme des K-means. Les résultats obtenus par cette
approche sont satisfaisants et surtout l interpolation linéaire avec le
modèle N-gram de base qui a permis une réduction de 13% de la
perplexité. Nous nous sommes intéressés ensuite aux modèles de langage à
base de facteurs. Là nous avons considéré l information morphologique
comme facteurs caractérisant les mots. Le modèle ainsi défini donne une
meilleure perplexité que le N-gram de base mais au prix d une
augmentation du nombre de paramètres. Ceci prouve que l information
morphologique apporte à la modélisation du langage et que les approches
proposées précédemment font introduire cette information tout en
réduisant le nombre de paramètres. La dernière partie des travaux est
consacrée à l ambigüité qui peut existe lors d une analyse
morphologique. Cette ambigüité est augmentée dans le cas de la langue
arabe vu que les mots du dictionnaire sont non-vocalisés. De nombreuses
décompositions morphologiques sont ainsi possibles par mot. Ceci nous a
poussés à proposer un modèle morpho-linguistique intégré. En effet, on
pense que la décomposition morphologique dépend du contenu linguistique
et vice versa. Ce qui justifie cette intégration des deux informations.
Lors de l analyse linguistique d une phrase on suppose que plusieurs
décompositions morphologiques sont possibles et que la bonne
décomposition des mots est une information cachée. On sélectionne la
décomposition optimale selon le critère de maximum de vraisemblance au
niveau linguistique.
l mardi 13 novembre - 10h - C46
Speaker transformation and its application to audio-visual
speaker verification (présoutenance)
Walid Karam (University of Balamand)
With the emergence of smart phones and third and fourth generation
mobile and communication devices, and the appearance of a "first
generation" type of mobile PC/PDA/phones with biometric identity
verification, there has been recently a greater attention to secure
communication and to guaranteeing the robustness of embedded multi-modal
biometric systems. The robustness of such systems promises the viability
of newer technologies that involve e-voice signatures, e-contracts that
have legal values, and secure and trusted data transfer regardless of
the underlying communication protocol. The robustness of a biometric
identity verification system is best evaluated by monitoring the
behavior of the system under impostor attacks. Such attacks may include
the transformation of one, many, or all of the biometric modalities,
such as face or voice. In this work, we describe the effect of voice
transformation on an audio-visual speaker verification system and the
corresponding experimental results on the BANCA talking-face database.
MixTrans, a novel mixture-structured bias voice transformation in the
cepstral domain, is introduced as an imposture procedure to evaluate its
effects on the verification system. We also propose an extension to
MixTrans, a signal-level stochastic technique for voice transformation,
which allows a reconstructed "forged" speech signal to be audibly
perceived, in addition to monitoring its effects on the verification
system. It has been proved that voice transformation that attempts to
mimic a target speaker (client) can affect the performance of the
biometric verification system.
mardi 13 novembre - 14h - B312
Vérification biométrique d'identité basée sur les visages parlants.
Apport de la mesure de synchronie audiovisuelle face aux tentatives
d'imposture élaborées (soutenance)
Herve Bredin
maercredi 14 novembre - 14h - DB406
Acoustic modeling for multilingual speech recognition
(thèse en cours)
Rania Bayeh (University of Balamand and ENST)
Despite the ongoing research in multilingual speech recognition during
the past years, several problems still exist. One of the most
complicated aspects of multilingual speech recognition is the creation
of universal acoustic models. Several approaches have been proposed for
this purpose: some as simple as combining the models of two or more
languages in a single set and conducting recognition, and others such as
porting models from a highly resourced language to another less
resourced language.
Our initial experiments in this field involved using more or less simple
methods to associate phonetic units and their corresponding models
between French and Arabic. The transformation of these universal units
was based on adaptation functions of Hidden Markov Models (HMM). Using
robust French phoneme models and a very limited Arabic inhouse telephony
speech database, a reliable isolated word recognizer for Arabic was created.
However, isolated word recognizers are not very practical and have very
limited use. Therefore, for this reason and others, a broadcast news
database was selected and the same approach was implemented. Based on
the theoretical framework of adaptation techniques, more complex
adaptation functions were then defined. In addition, different
combinations methods using classification trees were proposed.
This presentation will provide a brief introduction to multilingual
speech recognition and describe the various techniques used in the
creation of our system. It will also describe the experiments conducted
and their corresponding results. Finally conclusions will be presented
and a general outline of the remaining work will be discussed.
mercredi 14 novembre - 15h30 - DB406
Speaker Recognition: Definition, Progress, and future developments
(thèse en phase initiale)
Claudia Mattar (University of Balamand)
Speaker recognition is a biometric modality that uses an individual's
voice for recognition purposes. The speaker recognition procedure relies
on features influenced by both the physical structure of an individual's
vocal tract and the behavioral characteristics of the individual.
Over the past years, Gaussian Mixture Model has been the dominant
approach for modeling in text independent speaker recognition
applications. We will describe the development and the evaluation of
Gaussian Mixture Model-Universal Background Model (GMM-UBM) system as
applied in NIST SRE corpora for single speaker detection. We will
present also the basic speaker verification/detection task and the
likelihood ratio detector approach used to address it. This approach has
been experimented, we will show the experiments and, so far, the
obtained results of GMM-UBM system on the NIST SRE corpora.
The literature review shows that several techniques could be included to
improve the performance of our baseline system. A synthesis of this
study will be provided and a roadmap will be proposed to build this
advanced system. Once achieved, it is suggested to apply the 'Piecewise
GMM'' (PGMM) for speaker recognition. Actually, modeling by PGMM has
been proposed to make the segmentation of a video by seeking some sort
of consistency in terms of stochastic pixels and time. It is suggested
to apply the same approach, within the frame of a PhD work, to segment
an audio sequence to coherent parts at acoustics level while using at
the same time this modeling for recognition purposes.
mardi 18 decembre - 14h00 - DA006
Vitrine de la Recherche
Goal Event Detection in Broadcast Soccer Videos
Yina Han (Xi'an Jiaotong University of China and ENST)
As the amount of digital video has been increasing rapidly in recent years,
some innovative functionalities, such as video summarization, indexing and
events detection, are required. Take goal event detection in broadcast
soccer video as an example, based on my previous study on low-level
features and supervised statistical learning which has the drawback of lack
of high-level semantics and requiring large training dataset respectively,
we propose a novel algorithm to solve this problem. First a 2-D mid-level
feature is extracted in the shot view layer, of which the dimension
represents the typical temporal pattern of view types and the value equals
to the number of frames involved in each view. Then unsupervised fuzzy
c-means (FCM) algorithm is applied on this feature space and
defuzzification by combining the information of membership degree and the
number of goals is employed to detect goal events. The effectiveness and
the robustness of the proposed algorithm are demonstrated over five half
matches produced by different broadcast stations.