Apprentissage interactif et coordination d’agents

Apprentissage interactif et Coordination d’agents Mémoire de fin d’étude Master Informatique option IA & Multimédia PHAM PHUONG THAO Encadrant ALEXIS DROGOUL Laboratoires L’équipe MSI- IFI Hanoi Laboratoire Géodes au Centre IRD Bondy Hanoi Août 2009 Remerciements Je tiens tout d’abord remercier Alexis Drogoul pour m’avoir proposé ce sujet et pour son encadrement dévoué durant tout mon stage Mes remerciements vont aussi Chu Thanh Quang et Vo Duc An du laboratoire MSI pour leur support, leur aide chaleureuse et les documents qu’ils m’ont fournis Merci Patrick Taillandier et Bertrand Chaussat pour leurs conseils et leur aide sur les SIG Je remercie tous mes camarades de la promotion 13 pour leur amitié et leur support pendant les deux années passées l’IFI Je souhaite remercier ma mère, ma sœur et également la famille de Fabrice pour leur soutien, leur attention et pour m’avoir encouragé tout au long de mes études et de mon stage, Hanoi et Bondy Enfin, je voudrais remercier particulièrement Fabrice Trillaud pour son aide précieuse et son soutien de chaque instant Résumé Le projet AROUND (Autonomous Robots for Observation of Urban Networks after a Disaster), un des projets principaux du laboratoire MSI l’IFI, se propose de concevoir et d’implémenter un système complet d’aide la décision en temps-réel pour la gestion des catastrophes naturelles en milieu urbain Mon stage se concentre sur l’augmentation du réalisme de la simulation AROUND, en implémentant la coordination entre les agents pour gérer les conflits, et en améliorant les comportements d’apprentissage en ligne Il s’intéresse aussi l’initialisation de la simulation partir de scénarios réalistes Pour gérer les conflits dans la prise de décision des agents, j’ai proposé deux approches : le modèle centralisé et le modèle décentralisé Pour améliorer l’apprentissage en ligne des agents, j’ai implémenté un mécanisme de diffusion de connaissances par la communication Mots-clés : Apprentissage interactif, décision multi-critères, fonction d’utilité, système d’aide la décision, coordination entre les agents Abstract The project AROUND (Autonomous Robots for Observation of Urban Networks after a Disaster), one of the principal and important projects of the laboratory MSI at IFI, intend to conceive and implement a complete decision support system in real time for managing the natural catastrophe in the urban area My work focuses on increasing the realism of the simulation AROUND, by implementing the coordination between the agents to manage conflicts, and by improving on-line learning behaviors I also worked on the simulation’s initialization, based on realistic scenarios To manage the conflicts between the decisions taken by different agents, I proposed two approaches: the centralized model and the decentralized model To improve the on-line learning, I built a learning diffusion mechanism through communication Keywords: Interactive learning, multi-criteria decision, utility function, decision support system, coordination between agents Table des matières Remerciements Résumé Abstract Table des matières Table des figures Liste des tableaux I Introduction Objectif du stage Modèle AROUND-RESCUE II Coordination entre les agents dans le système de secours en cas de catastrophe 14 Problème de coordination 14 Technique de coordination commune 16 a Structure Organisationnelle : 16 b Echange de méta-information 16 c Planification Multi-Agent 17 Problème de coordination dans AROUND-RESCUE 19 Deux modèles proposés pour gérer les conflits dans AROUND-RESCUE 21 a Modèle de décision décentralisée 21 b Modèle de décision centralisée 25 Expérimentations 27 a Comparaison des temps d’exécution 27 b Comparaison de la gestion de conflits 32 c Conclusions expérimentales 33 III Apprentissage interactif dans le système multi-agents 34 Problème de l’apprentissage dans AROUND-RESCUE 34 a Fonction d’utilité et ensemble de critères de décision 34 b Apprentissage interactif par le modèle de « préférence additive » 35 c Limites de l’existant 36 Approche pour le partage intelligent de connaissance entre les agents 38 a Implémentation de l’action de décision dans GAML 38 b Critères « collectifs » de décision des agents dans AROUND-RESCUE 39 c Expérimentations 43 IV Diffusion et partage de connaissance 41 a Exécution de la nouvelle action « choose » 43 b Comparaison de la performance des deux actions « choose » dans GAML 45 c Comparaison de la performance avec des zones de diffusion différentes 46 d Comparaison les méthodes d’initialisation de fonction d’utilité 50 Conclusion et perspectives 52 Références 54 Table des figures Figure : L’interface de la simulation AROUND-RESCUE Figure : L’indicateur « Victims » 12 Figure : L’indicateur « Fires » 13 Figure : Conflits entre les ambulances dans le modèle de VO Duc An 20 Figure : Le temps total nécessaire (en millisecondes) pour charger et sauver les victimes 28 Figure 10 : Le temps total nécessaire (en cycles de simulation) pour charger et sauver les victimes dans les deux modèles de décision 29 Figure 11 : L’indicateur du nombre de victimes sur le terrain, mortes, dans l’ambulance et l’hôpital 30 Figure 12 : Volume de communication entre les agents dans AROUND-RESCUE 31 Figure 13 : Un exemple de conflits dans AROUND-RESCUE 32 Figure 14 : Le nombre de conflits dans les deux modèles de décision 32 Figure 17 : L’ambulance va chercher la victime victim10125 43 Figure 18 : l’ambulance va chercher la victime victime10125 44 Figure 19 : l’ambulance va chercher la victime victime10169 44 Figure 20 : La comparaison de la performance de deux actions « choose » dans GAML 45 Figure 21 : La différence de la fonction d’utilité des ambulances et celle des experts 49 Figure 22 : Pourcentages de conflits entre les décisions des agents et ceux de l’expert 50 Figure 23 : Les différences entre la fonction des agents et celle de l’expert 51 Figure 24 : Les proportions de conflits des décisions des agents sur ceux des décisions de l’expert 51 Figure : Les tâches des agents dans le modèle décentralisé d’AROUND-RESCUE 22 Figure : Diagramme de la diffusion de la décision de cible d’une ambulance 23 Figure : Diagramme de la réponse de la diffusion de la décision de cible d’une l’ambulance 24 Figure : Les tâches des agents dans le modèle centralisé d’AROUND-RESCUE 25 Figure 15 : Diffusion de la fonction d’utilité aux ambulances 41 Figure 16 : La mise jour de la fonction d’utilité d’une ambulance 42 Liste des tableaux Tableau : Les espèces d’agents dans la simulation AROUND-RESCUE 11 Tableau : Les paramètres principaux de la simulation AROUND-RESCUE 12 Tableau : Les paramètres d’expérimentation de la simulation AROUND-RESCUE 27 Tableau : Le nombre de conflits dans la simulation AROUND-RESCUE 32 Tableau : L’ensemble de critère de décision d’une ambulance A pour choisir une victime V 34 Tableau : Les critères de décision des ambulances pour le choix des victimes 40 Tableau : Les critères de décision des pompiers pour le choix des incendies 41 Tableau : Les temps d’exécution et la différence 46 I Introduction Objectif du stage Le projet AROUND (Autonomous Robots for Observation of Urban Networks after a Disaster) se propose de concevoir et d’implémenter un système complet d’aide la décision en temps-réel pour la gestion des catastrophes naturelles en milieu urbain Le site web du projet : http://www.ifi.auf.org/site/content/view/48/84/ Dans le cadre de ce projet, une simulation de l’organisation des secours dans la ville de Hanoi après un tremblement de terre, permet des experts d’interagir avec les agents du modèle afin de leur apprendre, dynamiquement, les critères respecter pour porter secours aux victimes Cet apprentissage permet d’affiner le modèle afin qu’il puisse servir dans un cadre d’aide la décision [1] L’apprentissage actuel ne prend cependant pas en compte les dimensions collectives de compétition et de coordination entre équipes de secours Les critères utilisés ne portent en effet que sur la localisation et la gravité des victimes reportées, ainsi que sur la localisation et la disponibilité des centres de soins existants, mais pas sur l’activité parallèle des autres agents de la simulation D’autre part, les comportements appris par une équipe de secours ne sont pas partagés avec les autres agents De plus, la communication est déjà implémentée dans la plate-forme GAMA [2] comme un outil efficace pour échanger les informations entre les agents Mon sujet de stage se concentre sur la mise en place d’un mécanisme pour améliorer la performance et le réalisme de la simulation AROUND-RESCUE Il faut développer : - un ensemble de critères « collectifs » permettant de prendre en compte dans l’apprentissage la localisation et la disponibilité des autres équipes de secours ; - une méthode de communication permettant aux agents de partager intelligemment les modèles de décision appris ; - une méthode de coordination ou de négociation, s’appuyant sur les mécanismes de communication, et permettant de régler les éventuels conflits entre les agents possédant des modèles de décision différents L’ensemble sera réalisé au sein de la plate-forme GAMA, développée au sein de l’équipe MSI et de l’UR Geodes, et sur laquelle fonctionne la simulation actuelle Mon stage se déroule sous la direction du professeur Alexis DROGOUL et reprend les travaux de Chu Thanh Quang et Vo Duc An, deux thésards du laboratoire MSI Ce rapport présente mes recherches et mes expérimentations au cours du stage en quatre parties La première est l’introduction générale du stage et la description de la simulation AROUND-RESCUE La deuxième partie parle de la coordination dans le système de secours en cas de catastrophe, les techniques principales existantes et la solution apportée pour la coordination des agents Le problème d’apprentissage est présenté dans la troisième partie, ainsi que les expérimentations pour le mécanisme de partage et de diffusion de connaissances Enfin ce rapport parle en conclusion des perspectives envisagées pour la simulation Modèle AROUND-RESCUE Le modèle AROUND-RESCUE est développé pour simuler les activités de secours terrestres après un tremblement de terre La simulation a été créée pour la première fois par Alexis Drogoul et Chu Thanh Quang [1] Ils ont implémenté ce moment un modèle simple de prise de décision dans les comportements des agents Ce modèle a été ensuite amélioré par Vo Duc An [2] en y ajoutant la communication et la coordination entre les agents L’initialisation de la simulation est en cours d’amélioration par Bertrand Chaussat, qui intègre le calcule des positions des victimes et des incendies en se basant sur le niveau de dommages des bâtiments après le tremblement de terre Le projet est toujours en cours de recherche par les thésards et les stagiaires de MSI Figure : L’interface de la simulation AROUND-RESCUE Après un tremblement de terre, les bâtiments sont détruits, les habitants sont coincés et blessés dans les effondrements de béton et de briques Des incendies se déclenchent également L’organisation des secours dans les quartiers détruits est effectuée au minimum par la police, les pompiers, les hôpitaux et les ambulances Les espèces d’agents de la simulation se composent donc de :  les victimes  les incendies  les militaires  les explorateurs  les pompiers  les hôpitaux  les ambulances La description de chaque espèce est présentée dans le tableau suivant : Espèce Représentation Comportements Tâches victim Situated, visible Si une victime est sur le terrain, son état de santé s’aggrave au cours du temps Si une victime n’est pas prise l’heure par une ambulance, elle meurt sur le terrain Si une victime est dans une ambulance ou dans un hôpital, son état de la santé s’améliore au fur et mesure fire Situated, visible Si un incendie n’est pas pris en charge par des pompiers, son intensité augmenté au cours du temps Ou inversement, l’intensité d’un incendie diminue en fonction du nombre de voitures des pompiers qui sont en train de l’éteindre military situated, communicating, visible, planning Un agent de cette espèce représente une caserne Une caserne est responsable de fournir de l’eau aux pompiers Et chaque militaire s’occupe aussi une équipe d’explorateurs Polygone marron 10 Distance-de-Feu-jusqu’àVictime-la-plus-proche Nombre-Victimes-Voisines Distance-jusqu’à-Pompier-leplus-proche Distance-jusqu’à-Feu-le-plusproche Nombre-Feux-Voisins grand, plus il sera prioritaire dans la prise de décision La distance entre le feu et la victime voisine la plus proche Le nombre de victimes dans la région du feu La distance du feu au pompier le plus proche La distance entre le feu courant et le feu le plus proche Le nombre de feux voisins Ce critère est important car s’il y a plusieurs feux près l’un et l’autre, cela peut déclencher un incendie beaucoup plus grand rapidement (-) C3 (+) C4 (+) C5 (-) C6 (+) C7 Tableau : Les critères de décision des pompiers pour le choix des incendies c Diffusion et partage de connaissance Dans le travail précédent de Chu Thanh Quang, l’apprentissage est effectué par chaque ambulance séparément, et les connaissances ne sont pas partagées avec les autres agents On cherche savoir si l’ajout d’un mécanisme de diffusion des connaissances améliorera le processus d’apprentissage Dans mon travail, j’ai proposé une méthode de communication permettant aux agents de partager intelligemment leurs fonctions d’utilité Le point principal est qu’à chaque fois qu’il y a une mise jour de la fonction d’utilité d’un agent (une ambulance ou un pompier), celui-ci va envoyer un message qui contient la fonction d’utilité apprise aux autres agents de même espèces Ambulance Fonction d’utilité Fonction d’utilité Ambulance Ambulance Fonction d’utilité Ambulance Figure 15 : Diffusion de la fonction d’utilité aux ambulances 41 Le problème est maintenant de savoir comment un agent combine ses propres connaissances avec les données reçues A chaque moment, l’ambulance vérifie la présence de nouveaux messages dans la boîte de diffusion La mise jour se fait tous les k moments - - Soit W = {w1, w2, …, wn} les poids de la fonction d’utilité de l’ambulance a, avec n est le nombre de critère Soit Wi = {wi1, wi2, …, win} les poids de la fonction d’utilité du message i que l’ambulance a reçoit, avec n est le nombre de critère, i = {1 m}, et m le nombre de messages reçus - La moyenne W* de tous les Wi reçus est calculée : - Les nouveaux poids de la fonction d’utilité sont calculés selon la formule : temps ++ ; Non temps = k ? Oui Recevoir {Wi | i = m } des messages de la diffusion temps = ; Ou p est le taux d’apprentissage de l’ambulance a Si p est petit, Figure 16 : La mise jour de la fonction d’utilité d’une l’agent a aura plus confiant en sa ambulance propre prise de décision Si p est grand, l’agent a aura plutôt tendance récupérer les connaissances de tout le monde Les destinataires des messages ne sont pas toujours tous des agents de la même espèce, ils peuvent être les voisins, un groupe d’agents … selon le but et la condition du système du projet AROUND-RESCUE 42 Expérimentations a Exécution de la nouvelle action « choose » La nouvelle version de la fonction « choose » dans GAML marche aussi bien que la fonction originale Voici quelques exemples du comportement de l’ambulance dans une simulation avec une ambulance et 100 victimes La fonction d’utilité contient critères correspondant ceux proposés par [1] et un expert qui contrôle la décision de l’ambulance (section II.2.a) Le code GAML correspondant est le suivant : L’expert détermine les cibles de l’ambulance selon la fonction d’utilité de critères avec les poids "[10.0,4.0,1.0,3.0,1.0]" C'est-à-dire que la distance entre les victimes et l’ambulance jouent le rôle le plus important dans la prise de décision La première image montre que l’ambulance est en train d’aller chercher la victime victim10125 Figure 17 : L’ambulance va chercher la victime victim10125 43 Après avoir chargé la victime victim10125, elle a choisi comme sa cible suivante la victime victim10157 Figure 18 : l’ambulance va chercher la victime victime10125 Puis, dans l’image suivante, la cible est la victime victim10169 La prise de décision de l’ambulance marche bien, comme dans ces exemples, parce que l’ambulance s’intéresse d’abord aux victimes les plus proches avec le poids le plus élevé (w = 10.0), mais aussi la gravité des victimes Figure 19 : l’ambulance va chercher la victime victime10169 44 b Comparaison de la performance des deux actions « choose » dans GAML Dans cette partie, j’ai fait une comparaison des performances entre les deux actions « choose » de la prise de décision dans GAML : l’action « choose » de [1] et la nouvelle version Dans le graphe ci-dessous, j’ai estimé le temps total nécessaire en millisecondes pour qu’une ambulance aille chercher toutes les victimes dans la zone urbaine Les environnements de test sont identiques Les paramètres sont : - Une ambulance - Nombre de victimes : 10, 20, 50, 100 et 150 victimes (le cas de 150 victimes est utilisé seulement avec la nouvelle action « choose ») - critères proposés par Chu Thanh Quang [1] pour le premier cas et ceux correspondants pour le deuxième cas - Fonction d’utilité de l’expert : Les poids des critères sont [10.0, 4.0, 1.0, 3.0, 1.0] Dans cet environnement, aucune victime n’est morte avant l’arrivée de l'ambulance Figure 20 : La comparaison de la performance de deux actions « choose » dans GAML Le tableau et la figure 20 montrent que la nouvelle action « choose » fonctionne plus rapidement que l’action originale de [1], car la ligne rouge est toujours plus basse que la 45 bleue, le temps d’exécution est diminué de 24% 32% par rapport l’ancienne action Cela est dû aux changements dans les arguments de l’action « choose » : lorsque les victimes meurent ou sont sauvées, elles sont enlevés de l’argument « names », ainsi le nombre d’éléments de la liste diminue au fur et a mesure 10 victimes 20 victimes 50 victimes 100 victimes 150 victimes Ancienne action 38369 69153 192769 507253 786594 Action modifiée 26279 48703 132959 385434 573984 Différence (en %) 32% 30% 31% 24% 27% Tableau : Les temps d’exécution et la différence entre l’ancienne action de Quang et la modifiée c Comparaison de la performance avec des zones de diffusion différentes Comme indiqué dans la partie III.2.c, la diffusion des connaissances entre les agents peut donner les résultats différents selon le rayon d’échange des informations J’ai proposé cas de diffusions: - Apprentissage sans diffusion : les agents n’échangent pas de connaissances Il n’y a pas du tout de communication entre les agents, comme dans la figure de gauche Les agents sont indépendants dans l’apprentissage 46 - Diffusion globale : les agents partagent leurs connaissances avec tous les autres agents de la même espèce Par exemple : une ambulance va diffuser sa fonction d’utilité toutes les ambulances dans le quartier Les pompiers agissent de la même manière - Diffusion locale : chaque agent a un rayon de communication limité, de 400 mètres par exemple Les messages sont envoyés dans ce rayon, pas plus loin Dans la figure de gauche, ce rayon est présenté par un cercle rouge C'est-à-dire qu’un agent diffuse ses informations seulement aux agents présents l’intérieur du cercle - Diffusion en groupe: Les agents ayant le comportement d’apprentissage sont divisés en groupe La diffusion des connaissances est effectuée seulement entre les membres d’un groupe Dans l’exemple de gauche, il y a deux groupes : un groupe rouge et un groupe bleu Les ambulances rouges partagent leurs informations entre elles, elles ne partagent rien avec le groupe bleu 47 Les expérimentations sont faites avec 100 victimes, 20 ambulances, et sans incendies dans le quartier L’environnement des tests est le même : la localisation des victimes et des ambulances est la même, de même que la gravité des blessures des 100 victimes Dans cette partie, l’efficacité des différentes stratégies est estimée grâce deux mesures proposées par Chu Thanh Quang : - La différence entre la fonction des agents et celle de l’expert Cette différence est calculée selon la formule : Diff(kmin)= ∑| – kmin* wi | avec kmin= ArgMin{Diff(k)} Où sont les coefficients de la fonction d’expert: Fo(Vk) = ∑ * Cki Et wi sont les coefficients de la fonction de l’ambulance: Fa(Vk) = ∑ wi * Cki Pour une communauté ou un ensemble d’agents, on calcule la moyenne de toutes les différences pour obtenir un chiffre qui représente l’apprentissage de tous les agents : Avec m est le nombre d’agents de la même espèce participant la diffusion de connaissance Dans la figure 9, chaque ligne présente les différences Diffavr, pour chaque méthode de diffusion, pendant l’exécution de la simulation AROUND-RESCUE Selon le graphe, l’apprentissage est optimal avec la stratégie globale car la ligne bleue est beaucoup plus basse que les autres C'est-à-dire que les fonctions d’utilité des ambulances qui partagent leurs connaissances avec tout le monde sont très proches des fonctions d’utilités des expert : l’apprentissage s’est parfaitement déroulé 48 Figure 21 : La différence de la fonction d’utilité des ambulances et celle des experts  Diffusion en groupe : Les ambulances sont divisées en groupes  Diffusion locale : le rayon de diffusion = 400m Sans diffusion, l’apprentissage des ambulances est beaucoup moins bon, la différence finale est toujours très élevée, presque fois plus qu’avec la diffusion globale La diffusion locale ou en groupe donne des résultats moyens, meilleurs que ceux du cas sans diffusion, mais moins bon que la diffusion globale - Le conflit entre les décisions des agents et ceux de l’expert Quand la décision de l’ambulance est différente de celle de l’expert, on dit qu’il y a conflit Cette mesure est calculée par le pourcentage entre le nombre de conflits et le nombre total de prises de décision D’après le graphe ci-dessous, la diffusion globale donne les résultats bien meilleurs que les autres méthodes Les décisions dans le cas de partage en groupe sont beaucoup plus proches des décisions des experts que dans le cas de la diffusion au voisinage, la proportion diminue presque 10% La raison principale est que le nombre d’ambulance participant la diffusion en groupe est stable, tandis que dans le cas de la diffusion locale, ce nombre change en permanence Il se peut même qu’une ambulance n’ait aucun voisin : la diffusion est beaucoup moins stable 49 Figure 22 : Pourcentages de conflits entre les décisions des agents et ceux de l’expert Mais plus le nombre de messages envoyés est important, plus il faut de temps pour traiter les messages En réalité, si la bande passant disponible pour la communication est suffisante, la diffusion globale est conseillée pour ses excellentes performances Sinon, la diffusion locale ou en groupe est un meilleur choix pour éviter la saturation du réseau, et donc la dégradation des performances pour la coordination des agents et l’échange d’informations, toujours urgents dans le cas de catastrophes naturelles d Comparaison les méthodes d’initialisation de fonction d’utilité Dans le graphe de la figure 23, la ligne violette représente la différence entre la fonction des ambulances et celle de l’expert dans le cas de diffusion globale, mais avec une initialisation aléatoire pour les poids des fonctions d’utilité des ambulances On peut voir que l’apprentissage avec une initialisation aléatoire fournit de meilleurs résultats que l’initialisation simple avec les poids [1.0, 0.0, 0.0, 0.0, 0.0] La raison cela est qu’avec l’ancienne initialisation, la différence entre les deux fonctions d’utilité est toujours plus grande au début de la simulation qu’avec n’importe quelle fonction aléatoire Elle prend ainsi plus de temps pour converger 50 Figure 23 : Les différences entre la fonction des agents et celle de l’expert Figure 24 : Les proportions de conflits des décisions des agents sur ceux des décisions de l’expert 51 IV Conclusion et perspectives Mon stage se concentre sur l’augmentation du réalisme de la simulation AROUNDRESCUE Les objectifs du stage comprennent parties :  Explorer les différents mécanismes de coordination entre les agents pour gérer les secours aux victimes et l’extinction des incendies  Développer un ensemble de critères de décision et implémenter la communication dans l’apprentissage en ligne des comportements des agents pour que les agents puissent partager intelligemment les modèles de décision appris  Initialiser les simulations partir de scénarios réalistes Dans la première partie, j’ai fait des recherches sur la coordination et les méthodes communes Puis j’ai proposé deux modèles de coordination qui adaptées au cas de secours après une catastrophe naturelle : le modèle de décision centralisé et le modèle de décision décentralisé Dans le premier modèle, les casernes et les hôpitaux jouent le rôle de centre d’informations et de répartiteur des tâches Les pompiers et les ambulances travaillent sous la direction de leurs coopérateurs Dans le deuxième modèle, les explorateurs et les ambulances (ainsi que les pompiers) se coordonnent pour effectuer les secours sans le contrôle global des hôpitaux ou des militaires Les deux modèles proposés parviennent gérer les conflits dans la prise de décision, les agents ont ainsi besoin de moins de temps pour finir de secourir les victimes et d’éteindre les incendies par rapport aux modèles précédents Deux approches de coordination ont été proposées et sont comparées L’approche décentralisée passe le pouvoir aux explorateurs et aux ambulances pour qu’ils puissent réagir et interagir indépendamment selon les circonstances Dans les cas les plus chaotiques, le modèle de décision décentralisé sera plus efficace car les ambulances peuvent se débrouiller toutes seules pour éviter les routes bloquées et pour atteindre les victimes le plus vite possible C’est un élément auquel l’approche centralisée ne sait pas forcément faire face, car les hôpitaux ne peuvent pas contrôler l’état des routes et des bâtiments dans le quartier si leurs centres d’information ne sont pas assez puissants pour enregistrer et traiter autant informations sur l’environnement Dans la deuxième partie du rapport, la méthode d’apprentissage interactif proposée par Chu Thanh Quang [1] est rappelée et améliorée en ajoutant plus de critères de décision pour la fonction d’utilité De plus, un mécanisme de partage est implémenté en se basant sur la communication pour renforcer les comportements d’apprentissage des agents Les agents peuvent diffuser leurs connaissances entre toute la communauté (de façon globale), ou dans un ensemble d’agents (voisinage ou groupe d’agents) La communication globale donne les 52 meilleurs résultats mais elle a besoin de plus de bande passant pour transférer les messages partout dans l’environnement En combinant la coordination et la communication, le modèle AROUND-RESCUE est amélioré la fois dans la prise de décision des agents et dans la performance de secours, et modélise donc plus correctement une situation réaliste Les ambulances ont pu plus efficacement aller chercher et transporter les victimes en moins de temps, et les incendies sont éteints plus rapidement En ce qui concerne les perspectives, j’ai implémenté les deux modèles proposés et fait les expérimentations séparément Il est toujours possible de combiner ces deux modèles pour profiter des avantages des deux approches D’un côté, il existe toujours les coordinateurs comme les casernes et les hôpitaux qui dirigent les actions des ambulances, des explorateurs et des pompiers D’un côté, les ambulances et les pompiers ont la capacité de calculer leurs cibles eux-mêmes dans le cas ou leurs coordinateurs sont trop chargés, et ne peuvent pas leur assigner de nouvelle tâche tout de suite L’approche centralisée peut être améliorée davantage pour éliminer totalement les conflits dans les décisions des agents Comme indiqué dans la section II.5.b, les hôpitaux assignent les tâches de leurs ambulances en se basant sur les informations envoyées par les casernes Il est possible que deux ou plusieurs casernes reçoivent les mêmes informations propos des victimes ou des incendies cause de l’activité des explorateurs En fait, les explorateurs rassemblent les informations en patrouillant dans le quartier et il est toujours possible qu’ils passent par les mêmes endroits et envoient les mêmes informations leurs casernes Pour augmenter la performance ici, il est nécessaire d’ajouter un mécanisme dans les casernes pour éviter la répétition d’informations Pour cela, un réseau de partage d’ informations entre les casernes est indispensable Pour atteindre un meilleur réalisme dans la simulation AROUND, l’étape d’initialisation est très importante Une fois que la situation de la simulation, y compris les dommages des bâtiments, le blocage des routes, les positions des victimes et des incendies, ressemble une situation réelle, les résultats de la simulation de secours sont valables Enfin, des travaux sont en cours en collaboration avec Bertrand Chaussat pour intégrer la simulation des secours ses travaux sur la simulation des dégâts sur les bâtiments et des départs d’incendie suite une catastrophe naturelle 53 Références [1] Thanh-Quang Chu, Alexis Drogoul, Alain Boucher, Jean-Daniel Zucker, Interactive Learning of Independent Experts’ Criteria for Rescue Simulations, in Pacific Rim International Conference on Artificial Intelligence (PRIMA), 2008 [2] Vo Duc An, Implantation des protocoles de communication FIPA dans la plate-forme GAMA, Mémoire du Stage de Fin d’étude, 2008 http://www1.ifi.auf.org/rapports/stages-promo12/stage-vo_duc_an.pdf [3] Sébastien Paquet, Nicolas Bernier and Brahim Chaib-draa , Comparison of Different Coordination Strategies for the RoboCupRescue Simulation, in Proceedings of The 17th International Conference on Industrial & Engineering Applications of Artificial Intelligence & Expert Systems, 2004, 987—996 http://damas.ift.ulaval.ca/publications/Paquet(IEA-AIE-2004).pdf [4] Nick R Jennings, Coordination Techniques for Distributed Artificial Intelligence, University of London, In: Foundations of Distributed Artificial Intelligence, pp 187-210, Wiley, 2001 http://eprints.ecs.soton.ac.uk/2187/1/FOUND-DAI-COORD.pdf [5] Marios M Polycarpou, Yanli Yang and Kevin M Passino, Cooperative Control of Distributed Multi-Agent Systems, IEEE Control Systems Magazine, June 2001 www.ece.osu.edu/~passino/CSM_Submitted.pdf [6] MV Nagendra Prasad and Victor R Lesser, Learning Problem Solving Control in Cooperative Multi-Agent Systems, AAAI Technical Report WS-97-03 Compilation copyright © 1997 www.aaai.org/Papers/Workshops/1997/WS-97-03/WS97-03-010.pdf [7] NICK R JENNINGS, Commitments and Conventions: The Foundation of Coordination in Multi-Agent Systems, University of London, in: The Knowledge Engineering Review, 8(3):223-250, 1993 www.ecs.soton.ac.uk/~nrj/download-files/KE-REVIEW-8-3.pdf [8] Keith S.Decker and Victor R.Lesser, Analyzing the Need for Meta-Level Communication, Umass Computer Science Technical report 93 -22, May 1993 ftp://ftp.cs.umass.edu/pub/techrept/techreport/1993/UM-CS-1993-022.ps 54 [9] Mathijs de Weerdt, André Bos, Hans Tonino Cees, Witteveen, A Plan Fusion Algorithm for Multi-Agent Systems, Delft University of Technology, In Proceedings of the Workshop on Computational Logic in Multi-Agent Systems (CLIMA-00), pages 56-65, 2000 www.pds.ewi.tudelft.nl/~mathijs/cl2000.pdf [10] Victor R Lesser, Keith S Decker, Generalizing the Partial Global Planning Algorithm, International Journal of Intelligent and Cooperative Information Systems, Vol 1, pages 319-346, 1993 ftp://ftp.cs.umass.edu/pub/lesser/decker-ijicis.ps [11] J E Doran, S Franklin, N R Jennings & T J Norman, On Cooperation in Multi-Agent Systems, 1997 www.csd.abdn.ac.uk/~tnorman/publications/ker1997.pdf 55 [...]... La coordination est un processus permettant d’organiser la résolution d’un problème de telle sorte que les interactions nuisibles soient évitées et que les interactions bénéfiques soient exploitées 15 2 Technique de coordination commune Dans cette section, les trois mécanismes les plus communs de gestion de la coordination sont présentés : Structure Organisationnelle, Echange de Méta-Information (Meta‐Level... assez importante, et la capacité de traitement des agents suffisamment élevée, les agents actifs comme les ambulances et les pompiers auront l’avantage de pouvoir agir et choisir leurs cibles plus librement 33 III Apprentissage interactif dans le système multi-agents 1 Problème de l apprentissage dans AROUND-RESCUE Dans un système de secours, les agents doivent agir le plus vite et plus efficacement... III), cette coordination doit être améliorée pour s’adapter à la décision des agents et pour augmenter la performance de la simulation 20 4 Deux modèles proposés pour gérer les conflits dans AROUND-RESCUE Dans cette section, deux modèles de coordination sont proposés afin de gérer les conflits dans la distribution des missions entre les agents dans AROUND-RESCUE : le modèle de décision décentralisée et. .. chercher cette victime, c’est-a-dire qu’elle n’a reçu aucun refus avant la fin du délai d’attente Elle va alors refuser la demande de l’émetteur du message en envoyant une réponse de type « refuse » Au contraire, si l’ambulance est encore en attente de réponse pour sa propre requête, elle va calculer la distance dv entre elle et la victime et puis la comparer avec la distance d’v entre l’émetteur et la... tandis que dans le modèle centralisé, un hôpital transmet sa décision en envoyant un seul message à une ambulance Cependant, le nombre d’agents participant à la communication et à l’échange d’informations dans le modèle décentralisé est plus bas : dans cette expérimentation, il n’y a que les explorateurs et les ambulances, contre les 4 espèces d’agents du modèle centralisé : les militaires, les explorateurs,... ce contexte, la coordination consiste en deux activités simultanées: la construction et la maintenance de la structure organisationnelle de la communauté, et le raffinement continu de cette structure en activités précises, en utilisant les connaissances locales et les capacités de contrôle de chaque agent L’organisation elle-même est spécifiée comme un ensemble de zones d’intérêt, et un ensemble de... dans la coordination sont les explorateurs, les ambulances et les pompiers Ces trois espèces d’agents interagissent pour contrôler la recherche et le secours dans AROUND-RESCUE La répartition des tâches entre chaque espèce est décrite dans le schéma ci-dessous : Dans ce modèle, l’organisation des agents n’est pas importante car tous les agents d’une même espèce jouent les mêmes rôles Leurs actions et leurs... objectifs communs Les agents doivent mettre au point des stratégies afin d’atteindre les résultats voulus, et avoir la capacité de coordonner dynamiquement leurs activités et de coopérer avec les autres De nombreux exemples de coordination existent dans la vie quotidienne: deux déménageurs déplaçant un meuble lourd, une équipe de football échange la balle pour marquer des buts et gagner le match, des personnes... les victimes et les emmener à l’hôpital - Informer et confirmer les incendies éteints Assigner les tâches aux pompiers Informer et confirmer les victimes sauvées, positions des ambulances Pompiers Ambulances Figure 8 : Les tâches des agents dans le modèle centralisé d’AROUND-RESCUE 25 - Les explorateurs patrouillent et envoient à leurs stations de police les informations sur les victimes et les incendies... 10 : Le temps total nécessaire (en cycles de simulation) pour charger et sauver les victimes dans les deux modèles de décision Au contraire, les deux modèles proposés permettent d’effectuer les secours très rapidement et très efficacement Le nombre total de cycles baisse beaucoup par rapport au modèle de Vo Duc An et au modèle sans coordination Par exemple, avec 100 victimes sur le terrain, le temps