342 pages - July 2024
ISBN papier : 1
ISBN ebook : 1

Code ERC :

PE6 Computer Science and Informatics
PE6_9 Human computer interaction and interface, visualisation and natural language processing
PE6_10 Web and information systems, database systems, information retrieval and digital libraries, data fusion
PE6_11 Machine learning, statistical data processing and applications using signal processing (e.g. speech, image, video)

Clear

– Paperback:
Free delivery for any order placed directly through the ISTE Group website istegroup.com
Delivery time: approximately two weeks
Deliveries only within metropolitan France, Belgium, Switzerland and Luxembourg
Printed in color
An ebook version is provided free with every hardcopy ordered through our website
It will be sent after the order is completed
Offer not applicable to bookshops

– Ebook:
Prices reserved for private individuals
Licenses for institutions: contact us
Our ebooks are in PDF format (readable on any device)

Sorry, this entry is only available in FR.

Partie 1. Détection des points de repère faciaux
Partie 2. Analyse d’expression faciale

Romain Belmonte

Romain Belmonte est chercheur postdoctoral en informatique à l’Université de Lille. Ses recherches actuelles portent sur la vision par ordinateur, l’apprentissage profond et l’analyse du comportement humain.

Benjamin Allaert

Benjamin Allaert est professeur associé à l’IMT Nord Europe (Lille). Ses recherches portent sur le développement de simulations numériques, l’apprentissage profond et les modèles de décision pour aider les humains à mieux interagir avec leur environnement.

Chapitre 1

Approches de détection des points de repère faciaux (pages : 15-74)

Les premières tentatives concernant la détection des points de repère faciaux remontent aux années 1990. Les efforts entrepris pour résoudre ce problème se sont longtemps focalisés sur les images fixes, et de nombreux travaux ont été publiés. Ce chapitre explore les deux principales catégories d'approches, génératives et discriminatives, ainsi que leurs développements. Les méthodes génératives construisent généralement un modèle de la forme et de l'apparence. Contrairement à ces approches qui reposent sur des modèles statistiques paramétriques, les approches discriminatives apprennent une correspondance entre l'image et la forme du visage. De nos jours, les réseaux de neurones convolutionnels constituent l'architecture couramment utilisée pour traiter les images. Récemment, une analyse comparative des approches de détection des points de repère faciaux basées sur la vidéo a montré que la stratégie la plus populaire pour ce problème est le suivi par détection.


Chapitre 2

Efficacité de la détection des points de repères faciaux (pages : 75-103)

La détection des points de repère faciaux est une étape de prétraitement courante et souvent cruciale dans le contexte de l'analyse faciale. Ce chapitre se concentre sur deux ensembles de données largement utilisés, 300W pour les images fixes et 300VW pour les vidéos. Les ensembles de données et les mesures d'évaluation sont fondamentaux pour entraîner et démontrer la validité des algorithmes. Ce chapitre passe en revue les principaux ensembles de données capturés dans des conditions non contrôlées. Le premier benchmark couvre les algorithmes basés sur l'image et peut notamment être utilisé pour comparer les approches traditionnelles et celles basées sur l’apprentissage profond dans des conditions simples à difficiles. Dans le second benchmark, les algorithmes basés sur la vidéo sont inclus pour fournir une comparaison supplémentaire entre les approches statiques et dynamiques. Dans le troisième et dernier benchmark, un nouvel ensemble de données avec des annotations plus riches, SNaP-2DFe, a été introduit, ce qui permet une analyse détaillée des principaux défis.


Chapitre 3

Détection de points de repères faciaux par modélisation spatio-temporelle (pages : 105-149)

Ce chapitre décrit les solutions actuelles en matière de modélisation spatio-temporelle. Il passe en revue les caractéristiques artisanales et les approches reposant sur l'apprentissage profond. Il décrit également les architectures développées pour étendre la connectivité des détecteurs de points de repère basés sur les réseaux neuronaux convolutionnels afin d'inclure le mouvement local par le biais d'une connectivité précoce. Il analyse les performances de chaque modèle en termes de vitesse, de taille et de nombre de paramètres. La complémentarité entre le mouvement local et le mouvement global a également fait l'objet d’expérimentations. Le protocole expérimental, les détails d'implémentation et les résultats sont présentés avec leur analyse. Des expérimentations sur deux ensembles de données, 300VW et SNaP-2DFe sont fournies afin d'évaluer les résultats obtenus et de les comparer avec les approches de l'état de l'art.


Chapitre 4

La caractérisation d’un visage (pages : 175-205)

L'analyse faciale est un domaine de recherche en pleine expansion car elle concerne de nombreuses applications telles que la sécurité, la robotique ou les télécommunications. Ce chapitre examine en détail les différentes étapes du processus d'analyse faciale. Il présente une synthèse des différents systèmes d'analyse faciale existants. La détection d'un visage dans une image numérique consiste à mettre en évidence les zones de cette image qui sont considérées comme "intéressantes" pour l'analyse, c'est-à-dire, à présenter les propriétés locales qui caractérisent un visage. Le rôle des méthodes d'apprentissage est de regrouper les objets en classes de manière à ce que les objets appartenant à une même classe soient plus semblables entre eux qu'aux objets appartenant à d'autres classes. Plusieurs catégories de méthodes de normalisation sont proposées dans la littérature. Ce chapitre distingue trois grandes catégories de normalisation : le recalage des formes, la normalisation photométrique et la normalisation inter-individu. La caractérisation d'un visage consiste à extraire l'information contenue dans le visage. Le visage peut être caractérisé soit globalement, soit localement.


Chapitre 5

L’étude des expressions faciales (pages : 207-241)

Ce chapitre traite de la manière dont les états affectifs sont caractérisés par rapport aux expressions faciales. Il présente deux défis majeurs de l'analyse des expressions faciales, qui sont de rendre l'analyse invariante aux changements d'intensité de l'expression et d'être robuste aux changements de pose et aux mouvements faciaux de grande amplitude. Le chapitre détaille comment les processus d'analyse faciale s'adaptent pour prendre en compte ces défis. Il examine les différentes bases de données d'apprentissage, leur conception et leur capacité à refléter les défis posés par l'analyse des expressions faciales dans un contexte naturel. En plus des mouvements faciaux, les intensités des mouvements faciaux varient et exigent que les intensités faibles et élevées soient traitées. Les bases de données d'apprentissage jouent un rôle important dans la reconnaissance des expressions faciales. Ce chapitre présente les approches les plus significatives dans la littérature pour la reconnaissance des macro- et micro-expressions. Il présente les méthodes proposées dans la littérature pour réduire les grands déplacements et les variations de pose.


Chapitre 6

Caractérisation du mouvement facial (pages : 243-264)

Ce chapitre propose un descripteur innovant appelé Local Motion Patterns, qui permet de filtrer et de caractériser le mouvement des expressions faciales en s’affranchissant des discontinuités de mouvement. Il se concentre sur les spécificités du mouvement facial afin d'améliorer les caractéristiques des mouvements induits par les muscles faciaux et d'extraire les principales directions de mouvement liées aux expressions faciales en s'affranchissant des discontinuités de mouvement. Le chapitre se concentre sur la cohérence locale de la distribution du mouvement en termes de magnitude et de direction. Il analyse les caractéristiques du mouvement en présence d'expressions faciales, calculées à l'aide d'une approche rapide de mouvement dense. Le chapitre décrit le processus permettant de dissocier plus distinctement les principales directions associées au mouvement du visage. Il soutient qu'un mouvement naturel implique une certaine cohérence locale et doit se propager continuellement autour des régions voisines.


Chapitre 7

Analyse des micro et macro-expressions (pages : 265-302)

Ce chapitre porte sur la reconnaissance des expressions en présence d'une grande diversité d'amplitudes de mouvements du visage. Il décrit les différentes régions du visage qui caractérisent les macro- et micro-expressions. Le chapitre identifie les régions du visage où il est intéressant d'extraire les motifs de mouvement cohérents nécessaires à une caractérisation optimale des macro- et micro-expressions. Il explique comment le vecteur de caractéristiques est construit pour encoder la relation entre les régions faciales et les macro- et micro-expressions. Le chapitre présente un processus générique de reconnaissance des expressions faciales. Avant de caractériser le mouvement du visage, l'ensemble des visages de la séquence d'images est normalisé à l'aide d'une transformation géométrique 2D basée sur la position du centre des yeux. Le chapitre évalue les performances du processus d'analyse sur plusieurs bases d'entraînement composées d'expressions faciales de faible et de forte intensité. Les méthodes d'apprentissage profond obtiennent les meilleures performances à ce jour sur les bases de données d'apprentissage de macro-expressions.


Chapitre 8

Vers une adaptation aux problèmes de pose (pages : 303-319)

Ce chapitre explique comment les problèmes de variations de pose et de grands déplacements sont exposés dans des bases de données d'apprentissage récentes. Il passe en revue les systèmes récents d'analyse des expressions faciales utilisés sur ces bases de données, en mettant l'accent sur les méthodes de normalisation utilisées. Les méthodes de normalisation basées sur des modèles 3D progressent constamment pour répondre aux défis posés par l'acquisition de données dans des conditions naturelles. Le chapitre détaille le système d'acquisition innovant appelé Simultaneous Natural and Posed Facial expression (SNaP-2DFe) permettant de capturer simultanément un visage dans un plan fixe et en mouvement. Il se positionne par rapport aux différentes méthodes de normalisation utilisées aujourd'hui pour caractériser les expressions faciales en présence de variations de pose et de déplacements importants. Il présente une solution capable de séparer la source de mouvement liée au mouvement de la tête et la source de mouvement liée aux expressions faciales.