Pour l'IA, jouer des coups optimaux DOIT amener à un bon score (normalement la victoire si on a bien décrit le score. C'est loin d'être trivial). Le coup optimal doit donc tout prendre en compte. Pas seulement l'état de la partie au troisième tour, mais l'état de la partie jusqu'à la fin.
Ce que tu décris est ce que l'on appelle la greedy action: faire la meilleure action au temps t. Cela ne veut pas dire que c'est la meilleure action au sens partie, et c'est donc pas ce qui est recherchée par les IA.
C'est pas très très naturel, mais c'est vraiment un point clé de l'apprentissage. C'est d'ailleurs pour cela que les phases exploratoires (faire des actions non optimales) sont absolument indispensables pour avoir une phase d'apprentissage réussie.
Un exemple: si tu es pilote de course, et que tu passes super vite les tours, mais que tu vas tellement vite que tu dois freiner sur un virage, ce qui use tes pneus et te faire faire un changement plus tard, ben, au final tu es pas victorieux. Pourtant, chaque tour est optimal.
Après, certains jeux à mtg doivent être très greedy (les jeux aggros qui se jouent en peu d'actions), tandis que c'est à priori moins le cas pour les jeux control.
D'ailleurs, les actions d'une IA (dans le présent cadre) ne visent qu'à maximiser une fonction, appelée la Value. Elle est constituée de l'ensemble des gains successifs. Chaque coup est paramétré par une autre fonction, qui est nommée la politique.
La politique optimale est une fonction qui map les informations disponible sur le coup à faire pour maximiser à la fin la Value. C'est donc bien un ensemble de coups qui est systématiquement (bien qu'intrinséquement) considéré.
"L'information n'est pas cachée, l'information c'est que ton adversaire à 3 cartes en main."
De l'information est cachée. C'est évident, sauf si tu vois les cartes dans les lunettes de ton adversaire (et encore, il manque le deck et tout). Après, on fait ce qu'on peut avec l'information que l'on a. C'est pour cela que c'est bien plus complexe à traiter que le go. Je ne dis pas que le jeu est plus dur. Le problème est plus dur. Certains problèmes sont extrement dur à poser, mais relativement facile à résoudre une fois bien posé. Et tout l'intérêt est d'ailleurs de les poser
"Il est pour moi toujours possible à l'instant t, de déterminer quel est le play optimal et il n'y a pas vraiment d'information cachée: tu sais que ton adversaire à x cartes en main, tu en ignores la nature exacte, tu as des indices au vu de ses précédents plays.
Tout cela est l'information que tu as, en plus du board state, visible, de ta main, de ta liste, et de la liste adverse supposée. C'est en général pas trop complexe à appréhender (mais parfois ça l'est).
Il y a un coup optimal en fonction de ces informations, qui ne sont pas cachées."
Tu viens de décrire assez joliement ce qu'est l'observabilité Mais il est loin d'être possible de toujours pouvoir le faire. Ton thermomètre te permet pas de savoir le temps qu'il fait dehors.
Peut on remonter à l'état du système (savoir quel jeu joue l'adversaire, ce qu'il a probablement en main) à partir des infos visibles et passées. Ce qui est pas encore trop complexe à appréhender pour l'humain l'est, à l'heure actuel, immensément pour une machine. Mais cela devrait sauter d'ici moins de 5 ans (enfin, ça a déjà partiellement sauté dans les systèmes physiques. Et je sais vraiment de quoi je parle là :brag:).
Il me semble que ce review est pas mal: Il parle brievement de l'observabilité et controlabilité, et également de l'importance de connaitre le systeme.
Van De Wal, Marc, and Bram De Jager. "A review of methods for input/output selection." Automatica 37.4 (2001): 487-510.
PS:
Pourquoi j'ai ça:
"Vous pouvez poster encore 12 message(s) jusqu'au aujourd'hui, 14:01." ?! oO
Merci pour la réponse!
Modifié par falcry, 02 May 2016 - 10:30 .