amélioration de la recherche dimages par le contenu grâce à la mesure de dissimilarité contextuelle

UNIVERSITÉ DE CANTHO FACULTE DES TECHNOLOGIES DE L'INFORMATION ET DE TÉLÉCOMMUNICATION MÉMOIRE DE FIN D’ÉTUDES AMÉLIORATION DE LA RECHERCHE D'IMAGES PAR LE CONTENU GRÂCE À LA MESURE DE DISSIMILARITÉ CONTEXTUELLE Étudiant : Nom : VO The Vinh Code d’étudiant : 1091468 Mémoire présenté pour l’obtention du diplôme d’ingénieur en informatique Semestre 2, l’année 2012-2013 © VO THE VINH, 2013 Résumé : Le besoin de la recherche documentaire existe depuis longtemps Parallèlement au développement, ce besoin est également indispensable dans la recherche de documents visuels Depuis plusieurs années, l'humain a fait efficacement beaucoup de recherches pour une méthode de la recherche d'images par le contenu pour l'appliquer aux nombreux travaux chaque jour Dans ce mémoire, je fais une recherche sur la Mesure de la Dissimilarité Contextuelle pour l’amélioration de la recherche d'images par le contenu Et puis l'appliquer sur un logiciel qui marche avec une grande base d'images Chaque image dans la base est calculée son signature et indexée dans une base de données Le calcul des signatures consiste en l'extraction de caractéristiques visuelles des images (telles que : la texture, la forme des objets ) Ensuite, l'utilisateur donne au logiciel une image (appelé l'image de requête) Le logiciel fait une suite des actions pour comparer la signature de cette image de requête avec celui des images de base et retourner l'utilisateur des images les plus similaires Abstract Necessitate of document searching existed long times ago As digital development, this need becomes more indispensable in case of visual documents Years ago, human has efficacy done many researches for a method of image searching by content and apply it to lots of works every day In this thesis, I did a research of Contextual Dissimilarity Measure to improve image searching by content Then I applied it to an application which can well function with a big image database Each image in the database is calculated its signature and indexed in a signature database That signature computation consists of extraction of image’s visual characteristic (such as: texture, object form inside image…) User loads then an image (called request image) The application will perform a series of action to compare the signature of this request image with those of images in base, and finally return similar images in list-formed Les mots-clés ANR : Rang Normalisée Moyenne (Average Normalized Rank) MDC : Méthode de Dissimilarité Contextuelle NS : Nistér-Stewénius (base d’images) PLA : Analyse Sémantique Latente (Latent Semantic Analysis) PLSA : Analyse Sémantique Latente Probabiliste (Probabilistic Latent Semantic Analysis) RIC : Recherche d’Image par le Contenu Table des matières Table des matières Liste des figures Liste des tableaux Remerciements : Chapitre Introduction générale 1.1 Introduction 1.2 Recherche d’Images par le Contenu 1.3 Objectif 1.4 Solution Chapitre La Mesure de Dissimilarité Contextuelle pour la Recherche d’Image par le Contenu 2.1 Représentation d’une image .9 2.1.1 Extraction du contenu visuel d’une image 2.1.2 Agrégation des descripteurs locaux 11 2.2 Mesure de dissimilarité 12 2.3 Indexation et recherche d’images par la MDC 13 2.3.1 Voisinage irréversible 13 2.3.2 Voisinage avec réversibilité 15 2.3.3 L’algorithme 15 2.4 Métriques d’évaluation 17 2.5 Des limites 19 Chapitre 20 Résultats expérimentaux 20 3.1 Implémentation de la MDC .20 3.2 Expérimentation 20 3.2.1 Base d’images 20 3.2.2 Mesures d’évaluations 22 3.3 Démonstrations 25 3.3.1 Configurations 25 3.3.2 L’interface principale du système 26 Chapitre 30 Conclusion 30 Bibliographie 31 Liste des figures FIGURE 1.1: Principe général de la recherche d'images par le contenu FIGURE 2.1: Structure d'un descripteur SIFT .9 FIGURE 2.2: Construction de l'histogramme des orientations 10 FIGURE 2.3: L’illustration des ellipses des points-clés 10 FIGURE 2.4: Les plus proches voisins du vecteur avec MDC (tiret) et sans MDC (solide) Les cercles signifient la distance moyenne du vecteur (en bleu) et du vecteur (en rouge) ses voisinages 14 FIGURE 2.5: Illustration du voisinage non-réversible .14 FIGURE 3.1: Images extraites de la base N-S 21 FIGURE 3.2: Images extraites de la base Caltech4 22 FIGURE 3.3: La courbe de précision-rappel de la base de caltech4 (en haut), de caltech101 (au milieu) et de N-S (en bas) 24 FIGURE 3.4: L'interface de configuration 25 FIGURE 3.5: L'interface principale 26 FIGURE 3.6: L'affichage des résultats de la base caltech4 27 FIGURE 3.7: L'affichage des résultats de la base caltech101 28 FIGURE 3.8: L'affichage des résultats de la base NS 29 Liste des tableaux TABLEAU 1: Mesures d'évaluations de la base NS 23 TABLEAU 2: Mesures d'évaluations de la base Caltech 101 23 TABLEAU 3: Mesures d'évaluations de la base Caltech 23 Remerciements : Je remercie tout d'abord mes enseignants de la Faculté des technologies de l'information et de la télécommunication de l’Université de Cantho qui m'ont donne des connaissances précieuses et des savoir-faire professionnels très nécessaires Je remercie tout particulièrement Monsieur PHAM Nguyen Khang, mon tuteur de mémoire, qui m'a construit une base solide de connaissance et m’a aidé résoudre les difficultés que j'ai rencontrées au cours de la réalisation de ce mémoire Je voudrais remercier aussi Madame PHAM Thi Ngoc Diem et Madame TRAN Nguyen Minh Thu, responsables de la filière francophone de la faculté de l'informatique de l’Université de Cantho, qui m’ont beaucoup aidé pour les informations Je souhaiterais remercier mes enseignants du dộpartement de franỗais de lUniversitộ de Cantho pour les connaissances trốs utiles sur le franỗais et la France Je remercie aussi Monsieur TRAN Thanh Ai pour la correction de franỗais de ce mộmoire Je remercie enfin ma famille de m'avoir éduqué et m'avoir fourni des conditions favorables mes études 2.4 Métriques d’évaluation La recherche d'images par le contenu est fondamentalement un problème de recherche d'information Les métriques d’évaluation appliquées sont sans doute celles qu'on utilise en recherche d'information  Deux mesures d’évaluation les plus répandues, présentées dans (Pham, 2009), qui sont la précision et le rappel La précision : Cette mesure répond au pourcentage des images retournées qui sont pertinentes par rapport la requête Le rappel : correspond au pourcentage de toutes les images pertinentes de la base d’images qui sont retournées Notons que quand la requête est une image, la pertinence des images retournées est extrêmement subjective C’est pour cela qu’au lieu de retourner un ensemble d’images pertinentes la requête, la plupart des systèmes de recherche d’images retournent une liste d’images classées par pertinence décroissante par rapport la requête La précision et le rappel sont souvent calculés sur un certain ensemble de k premières images retournées est appelé le scope On a montré que la précision et le rappel suivent une relation inverse en fonction du scope, c’est-à-dire que la précision diminue lorsque le rappel augmente quand le scope augmente Notons cependant qu’avec un scope k donné, la précision avec les k premières images retournées (dénotée par P@k) est proportionnelle au rappel (R@k) au même scope Traditionnellement, les résultats d’un système de recherche d’information sont résumés par des courbes de précision-rappel ou courbes de précision-scope Pour obtenir une courbe de précision-rappel, on calcule la précision chaque image pertinente retournée et on interpole la précision 11 points standard du rappel Ce sont les points où le rappel est égal 0, 0.1, 0.2, 0.3, et L’interpolation se fait par la règle suivante : où est la précision au point ou le rappel est égal 17 Une courbe de précision-rappel idéale est parallèle l’axe rappel et constant égale (c’est-à-dire que la précision est toujours égale quel que soit le rappel) Pour mesurer la manière dont le système ordonne des images pertinentes dans le résultat retourné l’utilisateur, j’utilise la mesure numérique très populaire dans la communauté de RIC C’est la précision moyenne (Average Precision) La précision moyenne pour une requête est calculée comme l’aire sous la courbe de précision-rappel en moyennant les précisions chaque image pertinente retournée La moyenne arithmétique de la précision moyenne calculée sur un nombre de différentes requêtes est appelée le MAP (Mean Average Precision) Je calcule la précision jusqu’à ce que toutes les images soient retournées pour les bases NS, Caltech-4 et Caltech-101  Une autre mesure, présentée dans(Accurate image search using the contextual dissimilarity measure, 2011), est utilisée populairement pour les évaluations, le Rang Normalisée Moyenne (the Average Normalized Rank - ANR) Pour chaque image de requête, l’ANR est donné par : où : Le nombre de requête : Le nombre d’images de la base : Le nombre d’image pertinente pour la requête : Le rang de la je image pertinente Le rang(j) sera égal si l’image pertinente je est en 1ere position dans le liste des images retournées Essentiellement, l’ANR est égale si toutes les images pertinentes sont retournées les premières De plus, cette mesure indique la position normalisée moyenne (varie de 1), en cela une image similaire apparait Par exemple, signifie le rang moyenne d’une image retournée est environ 1000 pour une base de 100 000 images Bref, le plus petit ANR, la meilleure précision  Le score N-S, proposé dans (Scalable recognition with a vocabulary tree, 2006), compte le nombre moyen des images similaires dans les quatre premières images sont 18 retournées Par exemple : NS=3.0 c'est-à-dire qu’une requête donne un résultat qui contient au moyen images similaires (dans premières) Cette mesure est très significative car il n’a que images pour chaque objet dans la base de N-S 2.5 Des limites Dans toutes les situations il existe toujours des avantages et des inconvénients Ce mémoire n’est pas une exception Outre des restrictions volontaires, il reste aussi des limites hors du contrôle du scientifique  Le système n’est pas encore unifié Les données doivent être prétraitées manuellement par des outils en ligne de commande chaque fois que l’utilisateur a envie d’ajouter des images la base Un prétraitement embarqué est plus idéal  En ce moment, le système ne fonctionne que sur le système d’exploitation de Linux  Seules des bases d’images de test ont été déjà appliquées Il manque une application sur les bases réelles 19 Chapitre Résultats expérimentaux 3.1 Implémentation de la MDC Dans ce mémoire, j’ai utilisé la langue de programmation C++ sur Linux J’ai construit les interfaces avec l’outil de programmation QT Creator Le programme de démonstration a des simples interfaces avec les fonctions suivantes :  Régler pour choisir des fichiers de base et le dossier qui contient les images  Ouvrir une image de requête  Rechercher les images similaires la requête  Faire les évaluations Pour toutes les expérimentations, le détecteur Hessian-Affine (avec le seuil de 200) est appliqué La distance de Manhattan est ainsi utilisée Toutes les bases d’images ont été performée le k-moyenne partitionnement (avec 2000 partitions) L’ensemble d’entraine est la base entière Le système peut aussi faire l’évaluation en total de fils, grâce la programmation de multi-fils (2013) (multithread programming) 3.2 Expérimentation 3.2.1 Base d’images J’ai utilisé plusieurs bases d’images (Pham, 2009) connues pour tester le système de RIC 20 Nistér-Stewénius : Cette grande base contient 2250 groupes de images prises sur la même scène avec différentes positions de l’appareil de photo Le nombre total d’images de la base est 10200 FIGURE 3.1: Images extraites de la base N-S 21 Caltech4 : La base contient 4090 images qui sont de catégories : faces (435 images), motorbikes (800 images), airplanes (800 images), backgrounds (900 images) et car rears (1155 images) airplanes background cars faces motorbikes FIGURE 3.2: Images extraites de la base Caltech4 Caltech101 : Cette base contient 9144 images en total qui sont réparties en 102 catégories 3.2.2 Mesures d’évaluations Pour chaque base, j’ai calculé ses mesures d’évaluations avec ou sans application de la MDC toutes les images Le résultat se trouve dans la table et le courbe suivante : 22 TABLEAU 1: Mesures d'évaluations de la base NS Nistér-Stewénius MAP ANR NS-score Application de MDC 0.593226979 0.129488 2.27294 Sans appliquer MDC 0.77633502 0.0604327 3.11961 TABLEAU 2: Mesures d'évaluations de la base Caltech 101 Caltech101 MAP ANR Application de MDC 0.082398751 0.261384 Sans appliquer MDC 0.124157707 0.249494 TABLEAU 3: Mesures d'évaluations de la base Caltech Caltech4 MAP ANR Application de MDC 0.348175698 0.10098 Sans appliquer MDC 0.455569284 0.09237 23 1,2 Précision 0,8 0,6 MDC Sans MDC 0,4 0,2 0 0,1 0,2 0,3 0,4 0,5 0,6 Rappel 0,7 0,8 0,9 1,2 Précision 0,8 0,6 MDC Sans MDC 0,4 0,2 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 Rappel 1,2 Précision 0,8 0,6 MDC sans MDC 0,4 0,2 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 Rappel FIGURE 3.3: La courbe de précision-rappel de la base de caltech4 (en haut), de caltech101 (au milieu) et de N-S (en bas) 24 3.3 Démonstrations 3.3.1 Configurations La configuration est une fonction essentielle du système On peut changer la base d’images en choisissant le dossier qui contient les fichiers de base et celui qui contient les images FIGURE 3.4: L'interface de configuration Ces configurations sont écrites sur un fichier ‘setting.txt’ Chaque fois que le système se démarre, il lit ce fichier pour sélectionner la base 25 3.3.2 L’interface principale du système FIGURE 3.5: L'interface principale 26 FIGURE 3.6: L'affichage des résultats de la base caltech4 27 FIGURE 3.7: L'affichage des résultats de la base caltech101 28 FIGURE 3.8: L'affichage des résultats de la base NS 29 Chapitre Conclusion Ce mémoire est centré sur une méthode très connue pour la recherche d'images par le contenu : La MDC J'ai présenté les étapes essentielles d'un travail de recherche d'image et la fonction d'un système RIC J'ai appliqué ces connaissances aux bases d'image (NS, Caltech) et le système a bien fonctionné En bref, je peux conclure que la MDC est une bonne méthode pour les systèmes RIC et elle atteint aussi des résultats très satisfaisants en comparaison avec les autres méthodes telles que : LSA, PLSA, LDA A l'avenir, si j'ai de bonnes conditions, j’améliorerai mon produit pour qu'il puisse mieux fonctionner avec d’autres bases d'images et je ferai des recherches sur d’autres méthodes que la MDC 30 Bibliographie 2011 StackOverFlow [En ligne] 18 décembre 2011 http://stackoverflow.com/questions/4357352/euclidean-distance-in-sift?rq=1 2013 Qt Project [En ligne] 2013 http://qt-project.org/ Accurate image search using the contextual dissimilarity measure Hervé Jégou, Cordelia Schmid, Hedi Harzallah et Jakob Verbeek 2011 2011 2013 Analyse sémantique latente Wikipédia [En ligne] avril 2013 http://fr.wikipedia.org/wiki/Analyse_s%C3%A9mantique_latente 2013 Analyse sémantique latente probabiliste Wikipédia [En ligne] avril 2013 http://fr.wikipedia.org/wiki/Analyse_s%C3%A9mantique_latente_probabiliste Do, Thanh-Nghi 2011 Khai Mỏ Dữ Liệu (Data Mining) s.l : Université de Cantho, 2011 Laganière, Robert 2011 OpenCV Computer Vision Application Programming Cookbook s.l : Packt Publishing, 2011 pp 10-88 Onarlıoğlu, Kaan 2009 CS 533: Information Retrieval Systems, Assignment #1 2009 pp 1-4 Pham, Nguyen-Khang 2009 Analyse factorielle des correspondances pour l’indexation et la recherche d’information dans une grande base de donné d’images 2009 2013 Recherche d'images par le contenu Wikipédia [En ligne] 16 Mai 2013 http://fr.wikipedia.org/wiki/Recherche_d%27image_par_le_contenu Scalable recognition with a vocabulary tree David Nistér, Henrik Stewénius 2006 2006 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Vol 2, pp 21612168 2013 SIFT Wikipédia [En ligne] 23 mai 2013 http://fr.wikipedia.org/wiki/Scaleinvariant_feature_transform 2013 Similarité cosinus Wikipédia [En ligne] juin 2013 http://fr.wikipedia.org/wiki/Similarit%C3%A9_cosinus 2013 TF-IDF Wikipédia [En ligne] avril 2013 http://fr.wikipedia.org/wiki/TF-IDF 31 ... l’environnement de Qt sous Linux, en programmant en C++ pour tout le système entier Chapitre La Mesure de Dissimilarité Contextuelle pour la Recherche d’Image par le Contenu Par la nature de RIC, le système... est la mesure de dissimilarité ou la distance de Manhattan (norme de L1) entre deux image et dans la base Le calcul est une étape itérative dans laquelle est défini par : Remplaỗons les de (1) par. .. le calcul de la mesure de similarité La similarité cosinus (ou mesure cosinus) permet de calculer la similarité entre deux vecteurs dimensions en déterminant l''angle entre eux (2013) La similarité

amélioration de la recherche dimages par le contenu grâce à la mesure de dissimilarité contextuelle

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan