‘Estudiante de juegos’, el algoritmo que gana al ajedrez y al póquer

Un nuevo algoritmo llamado Student of Games (en inglés, Estudiante de juegos) es capaz de ganar a distintos juegos de mesa, como el ajedrez, el Go, el póquer Texas Hold’em y Scotland Yard, un juego de estrategia. El programa de inteligencia artificial combina la búsqueda guiada, el aprendizaje automático y el razonamiento teórico del juego, según explican los investigadores que lo han desarrollado en la investigación que se publica este miércoles en la revista Science Advances. Hasta ahora, el algoritmo AlphaZero solo podía resolver juegos con información perfecta, como el ajedrez y el Go, en los que todos los jugadores tienen acceso a la misma información. Sin embargo, no era capaz de ganar al póquer al ser un juego con información imperfecta donde no se conocen las cartas de los contrincantes.

La investigación se llevó a cabo mientras los expertos trabajaban en Google DeepMind, la división de investigación de inteligencia artificial de Google. Sin embargo, varios miembros del equipo dejaron Google en enero de 2022 y la compañía despidió después a la mayoría del equipo restante en enero de 2023.

La herramienta es capaz de ganar en juegos perfectos e imperfectos con un conocimiento mínimo. “Nuestro algoritmo es capaz de razonar basándose en las reglas de los juegos. Por ejemplo, aprende a jugar a todos ellos (ajedrez, póquer, Go o Scotland Yard) solo con las normas, sin que se le dé más información”, explica Finbarr Timbers, investigador de Midjourney y autor del estudio. “Con ellas determina qué acciones puede realizar y si ha ganado o perdido”, continúa.

Para saber las jugadas que debe realizar en cada momento, el algoritmo se basa en lo que se llama “minimización del arrepentimiento contrafactual”. Esto se centra en el análisis de todas las jugadas posibles. El “arrepentimiento”, según Timbers, significa “lo bien que te podría haber ido si hubieras jugado de forma óptima, menos lo bien que has jugado en realidad”. Un ejemplo: si en el póquer has ganado 200 fichas siguiendo unas jugadas, pero podrías haber ganado 1.000 con otras, el arrepentimiento es de 800 fichas. Por lo tanto, el objetivo del Estudiante de juegos es reducir lo posible las 800 fichas. Tiene en cuenta todos los escenarios posibles con las cartas que estén boca arriba, es decir, la información pública, y hace una media de todos ellos.

Todos los escenarios posibles convergen en el equilibrio de Nash, teorema del matemático estadounidense John Nash. Los jugadores de una partida juegan sus estrategias para maximizar las ganancias y van adaptándola a lo largo del juego según las jugadas de los demás. Timbers y sus colegas se han basado en él para que el algoritmo busque una estrategia óptima en la mayoría de situaciones.

Cada juego transporta al participante a distintos escenarios. En el ajedrez, cuando estás en una posición determinada del tablero, puedes buscar entre las posibles jugadas para encontrar la mejor. Sin embargo, en el póquer no funciona así. Timbers explica que hay que considerar el impacto de las jugadas en otras situaciones: “Si empiezas a apostar alto cada vez que tienes una mano fuerte, al apostar agresivamente revelarás a tu oponente que tienes una buena mano. Del mismo modo, si dejas de apostar cuando tienes una mano débil, revelarás a tu oponente cuál es tu mano”.

La empresa británica DeepMind, propiedad de Google desde 2014, desarrolló un algoritmo llamado R-NaD capaz de jugar como un humano experto a Stratego, un popular juego de 40 fichas donde los jugadores deben capturar la bandera del contrincante o dejarle sin fichas. R-NaD utiliza trucos algorítmicos para obtener un buen rendimiento pero sin usar el método de búsqueda. Por este motivo no es tan fuerte como algoritmo del Estudiante: “La bibliografía ha demostrado históricamente que los algoritmos que buscan entre las posibles acciones suelen ser mejores en los juegos que los algoritmos que no utilizan la búsqueda, pero son más lentos y más caros de entrenar”, revela Timbers.

La inteligencia artificial competitiva se usa para medir la efectividad de los programas informáticos y para obtener una mejor experiencia del juego, pero también puede tener implicaciones negativas: “Es muy posible que ocurran trampas en páginas web de apuestas de póker y en juegos similares. Muchos videojuegos competitivos tratarán de ser inflexibles con el software permitido en los ordenadores de cada jugador para asegurarse de que no juega una inteligencia artificial, algo que ya hace Riot Games con Valorant (2020)”, indica Diego Rodríguez-Ponga Albalá, fundador y director de Póntica. Para ello, señala que es previsible “que se desarrolle una inteligencia artificial muy sofisticada para detectar automáticamente si el jugador es humano o no”.

Gema Ruiz, jefa de innovación en Softtek EMEA, también señala otras limitaciones del algoritmo, como el uso de abstracciones de apuestas en el póquer y los “gastos computacionales”. El uso de abstracciones consiste en la agrupación de jugadas similares que se tratan de la misma manera para disminuir la complejidad del juego. Cuando el estudiante entrena al póquer, utiliza abstracciones de apuestas aleatorias para reducir el número de acciones de 20.000 a 4 o 5. En el futuro, el estudio sugiere que se podría reemplazar su utilización por “una política más amplia que pueda manejar una variedad de acciones en situaciones de juego con un gran número de posibles decisiones”, dice Ruiz. Además, la enumeración de todas las jugadas posibles del algoritmo supone un alto coste y para ello proponen un “modelo generativo”, según el estudio. Este genera muestras de estados [estrategias] del mundo y opera sobre el subconjunto de las muestras seleccionadas, en lugar de enumerar todas las combinaciones de manos posibles.

Pese a ello, la herramienta, para Ruiz, es “un contendiente prometedor en el ámbito de los algoritmos de juego impulsados por la inteligencia artificial”. Destaca “su capacidad para mejorar el rendimiento con recursos computacionales aumentados, junto con sólidos fundamentos teóricos”.

Puedes seguir a EL PAÍS Tecnología en Facebook y X o apuntarte aquí para recibir nuestra newsletter semanal.

‘Estudiante de juegos’, el algoritmo que gana al ajedrez y al póquer | Tecnología

Por Emily Carter

‘Estudiante de juegos’, el algoritmo que gana al ajedrez y al póquer | Tecnología

Por Emily Carter

Entradas relacionadas