Autor: Javier Insa Cabrera Director: José Hernández Orallo

Análisis de primeros prototipos de tests deinteligencia universales: evaluando y comparando algoritmos de IA y seres humanos Autor: Javier Insa Cabrera Director: José Hernández Orallo 26 de septiembre de 2011

Índice • Introducción • Sistema de evaluación • Requisitos • Aprendizaje por refuerzo • Complejidad de los entornos • Factible • Clase de entornos Λ • Evaluación de un algoritmo de IA • Evaluación y comparación de distintos sistemas inteligentes • Conclusiones y trabajo futuro 2/26

Introducción Inteligencia general: Aptitud para dar respuesta a problemas de diferente índole. Precedentes en evaluación de inteligencia • Psicología comparada • Compara distintas especies. • CAPTCHA • Discrimina entre humanos y máquinas. • Cada vez discrimina menos. • Tests psicométricos (por ejemplo, tests IQ) • Son antropomórficos. • Problemas obtenidos de manera subjetiva y validados de manera empírica. • Evaluación de IA • Problemas específicos. • No se sabe muy bien lo que se está midiendo. Actualmente no existe ningún método apropiado para evaluar la inteligencia general en máquinas. 3/26

Sistema de evaluación Requisitos • Requisitos deseables de un sistema de evaluación universal de inteligencia general: • Debe evaluar y discriminar cualquier tipo de sistema inteligente conocido o aun por construir/descubrir. • Debe medir cualquier nivel de inteligencia y cualquier escala de tiempo. • Lo que se esté midiendo ha de representar la noción más general de inteligencia. • Debe derivarse de nociones computacionales bien fundadas. • La precisión dependerá sobretodo de la cantidad de tiempo que se evalúe. • Debe ser factible. • ¿Cómo trata de conseguir todo esto? 5/26

Sistema de evaluación Aprendizaje por refuerzo Debe evaluar cualquier tipo de sistema inteligente conocido o aun por construir/descubrir • ¿Cómo les decimos a los sujetos que vamos a evaluar su inteligencia? • Condicionamiento por recompensas. Observación Recompensa Entorno μ Agente π Interacción Acción 6/26

Sistema de evaluación Complejidad de los entornos Debe medir cualquier nivel de inteligencia • Los entornos deben poder ser de distintas complejidades. • ¿Cómo medimos la complejidad? • Complejidad para describir el entorno. • Complejidad Kolmogorov. 7/26

Sistema de evaluación Factible Debe discriminar cualquier tipo de sistema inteligente • Discriminativo. • Sensible a las recompensas. • Interacciones computables e instantáneas desde el punto de vista del agente. Lo que se esté midiendo ha de representar la noción más general de inteligencia ¿Cómo seleccionar los entornos? ¿Cómo medimos la inteligencia? • Distribución universal. 8/26

Sistema de evaluación Clase de entornos Λ Espacio: 3 1 π -1 2 +1 9/26

Sistema de evaluación Clase de entornos Λ Recompensas: +1 +1 G E +1 -1 -1 -1 -1 • Good y Evil no pueden estar simultáneamente en la misma celda. • Se elige aleatoriamente cual se mueve. • Good y Evil siguen un patrón de comportamiento. 10/26

Sistema de evaluación Clase de entornos Λ Sesión de evaluación: G Recompensas 1ª Iteración: 2ª Iteración: 3ª Iteración: 4ª Iteración: Recompensa media: +1 0 π +1 -1 +1 +0.5 +0.25 +0.67 E 11/26

Evaluación de un algoritmo de IA Probar si un algoritmo de IA obtiene resultados coherentes en esta clase de entornos. Agentes evaluados • Q-learning • Aleatorio • Seguidor trivial • Oráculo 13/26

Evaluación de un algoritmo de IA • Entornos donde hemos evaluado: • Distintas complejidades. • Promedio de 100 entornos con 10.000 iteraciones. • Patrón de Good y Evil con 100 movimientos en promedio. 3 Celdas 6 Celdas 9 Celdas 14/26

Evaluación de un algoritmo de IA Complejidad de los entornos: 9 Celdas Todos los entornos 15/26

Evaluación y comparación de distintos sistemas inteligentes Probar si el sistema de evaluación discrimina correctamente a dos tipos distintos de sistemas inteligentes en función de su inteligencia real. Agentes evaluados Agente biológico: Seres humanos Técnica de IA: Q-learning 17/26

Evaluación y comparación de distintos sistemas inteligentes Experimento: 20 tests. Configuración de cada test. • Hay que evaluar a los humanos en un periodo de tiempo razonable. • Aproximadamente alrededor de 20 - 25 minutos. 18/26

Evaluación y comparación de distintos sistemas inteligentes Interfaz: Humanos Algoritmos de IA b:E:πGa:: 19/26

Evaluación y comparación de distintos sistemas inteligentes Resultados: 20/26

Evaluación y comparación de distintos sistemas inteligentes Resultados: 21/26

Conclusiones y trabajo futuro • Conclusiones • Es la primera vez que se evalúan diferentes sistemas de IA con un test general no dedicado a ninguna tarea concreta. • Es la primera vez que se usa el mismo test general para evaluar humanos y máquinas. • El sistema de evaluación ofrece resultados coherentes al evaluar un algoritmo de IA. • El sistema de evaluación no discrimina correctamente dos sistemas inteligentes. • Conocimiento adquirido • Este sistema de evaluación no evalúa la inteligencia general, aunque es posible que sí parte de ella. • Es muy difícil proporcionar un entorno complejo. 23/26

Conclusiones y trabajo futuro • Trabajo futuro • Introducir comportamiento social en los entornos. • Construir el test autoajustando la complejidad de los entornos en función de la inteligencia del sujeto y adaptarse mejor con una distribución adaptativa. • Volver a evaluar distintos tipos de sistemas inteligentes y comprobar si con los cambios realizados se obtienen resultados más coherentes. 24/26

Publicaciones • Evaluating a reinforcement learning algorithm with a general intelligence test. • CAEPIA, volume7023. LNAI series, Springer, 2011. (to appear) • J. Insa-Cabrera and D.L. Dowe and J. Hernández-Orallo • Comparing humans and AI agents. • Artificial General Intelligence, volume 6830 of Lecture Notes in ComputerScience, pages 122-132. Springer Berlin / Heidelberg, 2011. • J. Insa-Cabrera and D. Dowe and S. España-Cubillo and M.V. Hernández-Lloredaand J. Hernández-Orallo. • On more realisticenvironmentdistributionsfor defining, evaluating and developing intelligence. • Artificial General Intelligence, volume 6830 of Lecture Notes in ComputerScience, pages 82-91. Springer Berlin / Heidelberg, 2011. • J. Hernández-Oralloand D.L. Dowe and S. España-Cubillo and M.V. Hernández-Lloredaand J. Insa-Cabrera 25/26

Gracias por su atención http://users.dsic.upv.es/proy/anynt/human1/test.html

Autor: Javier Insa Cabrera Director: José Hernández Orallo