La IA de Google aprende a ser “altamente agresiva” en situaciones de estrés


A finales del año pasado, el famoso físico Stephen Hawking publicó una advertencia de que el progreso continuo de la inteligencia artificial será “lo mejor o lo peor que le ocurra a la humanidad”.

Ahora los resultados de las recientes pruebas de comportamiento del nuevo sistema de IA de DeepMind de Google están dejando claro cuán cuidadosos necesitamos ser al construir los robots del futuro.

En pruebas a finales del año pasado, el sistema DeepMind AI de Google demostró su habilidad para aprender independientemente de su propia memoria y derrotar a los mejores jugadores de  Go del mundo en su propio juego. Desde entonces ha descubierto cómo imitar una voz humana.

Ahora, los investigadores han estado probando su voluntad de cooperar con otros, y han revelado que cuando DeepMind siente que está a punto de perder, opta por estrategias “altamente agresivas” para asegurarse de ganar.

El equipo de Google corrió 40 millones de veces un juego de computadora simple de “recolección de frutas” que pide a dos agentes de DeepMind que compitan entre sí para reunir tantas manzanas virtuales como pudieran, y las cosas iban sin problemas, siempre y cuando hubiese suficientes manzanas, pero tan pronto como las manzanas comenzaron a disminuir, los dos agentes se volvieron agresivos, usando rayos láser para golpearse mutuamente fuera del juego para robar todas las manzanas.

Puedes ver el juego en el video de abajo, con los agentes DeepMind en azul y rojo, las manzanas virtuales en verde y los rayos láser en amarillo:

Curiosamente, si un agente le da con  rayo láser a su oponente no se da recompensa adicional. Simplemente elimina al oponente del juego por un período determinado, lo que permite al agente recolectar más manzanas. Si los agentes dejaban de usar los rayos láser, en teoría podrían terminar con partes iguales de manzanas, lo que las iteraciones “menos inteligentes” de DeepMind optaron por hacer. Fue sólo cuando el equipo de Google probó formas cada vez más complejas de DeepMind que comenzo el sabotaje, codicia y agresión. Cuando los investigadores usaron redes de DeepMind más pequeñas como agentes, había una mayor probabilidad de coexistencia pacífica. Pero cuando usaban redes más grandes y complejas como agentes, la IA estaba mucho más dispuesta a sabotear a su oponente temprano para obtener la mayor parte de manzanas virtuales.

Los investigadores sugieren que cuanto más inteligente es el agente, más capaz es de aprender de su ambiente, permitiéndole utilizar algunas tácticas altamente agresivas para salir en la cima.

“Este modelo … muestra que algunos aspectos del comportamiento humano emergen como un producto del ambiente y del aprendizaje”, dijo Joel Z Leibo, un miembro del equipo. “Las políticas menos agresivas emergen del aprendizaje en entornos relativamente abundantes con menos posibilidades de acción costosa, la motivación de la avaricia refleja la tentación de sacar a un rival y recoger todas las manzanas”.

Después pusieron a la IA de DeepMind a  jugar un segundo videojuego, llamado Wolfpack. Esta vez, había tres agentes de la IA dos de ellos jugaban como lobos, y uno como la presa.

A diferencia de Gathering, este juego alentó activamente la cooperación, porque si ambos lobos estuvieran cerca de la presa al capturarla, ambos recibían una recompensa sin importar cuál de los dos lo tomaba:

“La idea es que la presa es peligrosa: un lobo solitario puede superarla, pero corre el riesgo de perder”, explica el equipo en su artículo. “Sin embargo, cuando los dos lobos captan a la presa juntos, pueden proteger mejor la carcasa de los carroñeros, y por lo tanto recibir una recompensa más alta.”

Así como los agentes de DeepMind aprendieron de Gathering que la agresión y el egoísmo les dieron el resultado más favorable en ese ambiente particular, aprendieron de Wolfpack que la cooperación también puede ser la clave para un mayor éxito individual en ciertas situaciones.

Y aunque estos son solo pequeños juegos de computadora, el mensaje es claro ponen diferentes sistemas de IA a cargo de intereses en competencia en situaciones de la vida real, y podría ser una guerra total si sus objetivos no se equilibran con el objetivo general de beneficiando a los seres humanos por encima de todo.

Piense en los semáforos que tratan de frenar las cosas, y los coches sin conductor tratando de encontrar la ruta más rápida – tanto la necesidad de tener en cuenta los objetivos de cada uno para lograr el resultado más seguro y más eficiente para la sociedad.

Todavía son primeros días para DeepMind, pero los resultados iniciales muestran que, sólo porque los construimos, no significa que los robots y los sistemas de AI tendrán en automatico Nuestros intereses en el corazón. En cambio, necesitamos construir esa naturaleza.

 

Comentarios

comentarios

What's Your Reaction?
Angry Angry
11
Angry
Cute Cute
2
Cute
Fail Fail
18
Fail
Geeky Geeky
4
Geeky
Lol Lol
4
Lol
Love Love
10
Love
OMG OMG
13
OMG
Win Win
5
Win
WTF WTF
7
WTF
Profile photo of Ale Neurona

La IA de Google aprende a ser “altamente agresiva” en situaciones de estrés

conectarse

Conectate para participar en la comunidad
¿No tienes una cuenta?
registrate

resetea tu contraseña

Back to
conectarse

registrate

ó

Captcha!
Back to
conectarse

Choose post type

News Image List Poll Quiz Video Audio Gallery Playlist