Una nueva investigación de IA propone 'explorar primero': un marco de IA simple para Meta-RL con dos políticas que aprende, una política solo para explorar y una política que solo aprende a explotar

Screenshot 2023-07-09 at 2.27.45 AM — https://arxiv.org/abs/2307.02276

Las aplicaciones exitosas de aprendizaje por refuerzo (RL) incluyen tareas desafiantes como control de plasma, diseño molecular, juegos y control de robots. A pesar de su potencial, el RL tradicional es un espécimen muy ineficiente. Aprender una tarea que un humano puede realizar en unos pocos intentos puede llevar a un agente a cientos de miles de bucles de juego.

Los estudios muestran las siguientes razones para la ineficiencia de la muestra:

El precedente complejo, como el sentido común humano o la vasta experiencia, está más allá del alcance de las capacidades típicas de condicionamiento de RL.
El RL tradicional no puede personalizar cada exploración para que sea lo más útil posible; En cambio, se modifica mediante el refuerzo repetido de conductas previamente adquiridas.
Tanto la RL tradicional como la meta-RL utilizan la misma política para la exploración (recopilación de datos para mejorar la política) y la explotación (obtención de una gran recompensa por el episodio).

Para abordar estas deficiencias, los investigadores de la Universidad de Columbia Británica, el Instituto Vector y la Cátedra canadiense CIFAR AI presentan First-Explore. Este marco ligero Meta-RL aprende un conjunto de políticas: una política de exploración inteligente y una política de explotación inteligente. El aprendizaje a nivel humano, contextual y de muestra efectiva de Meta-RL en dominios de exploración desconocidos y desafiantes, como dominios hostiles que requieren el sacrificio de la recompensa para investigar de manera efectiva, es posible a través de First-Explore.

🚀 Echa un vistazo a las herramientas de IA de 100 en nuestro club de herramientas de IA

El desarrollo de algoritmos de desempeño humano en áreas de exploración desafiantes encontradas anteriormente es uno de los principales obstáculos en el desarrollo de la inteligencia artificial general (AGI). El equipo sugiere que combinar First-Explore con un plan de estudios, como el Currículo de AdA, podría ser un paso en la dirección correcta. Creen que tal progreso conducirá a los beneficios potencialmente significativos de la IA si pueden abordar adecuadamente los problemas de seguridad reales y graves asociados con el desarrollo de la IA.

READ Aquí hay una lista de fabricantes de teléfonos que usarán la personalización automática en sus actualizaciones de Android 12

Los recursos computacionales asignados a la aleatorización de campo de manera temprana permiten que First-Explore aprenda la exploración inteligente, como buscar exhaustivamente las primeras diez actividades y luego priorizar el muestreo de alta recompensa. Sin embargo, una vez entrenada, la estrategia de exploración puede ser increíblemente efectiva al aprender nuevas tareas. Dado que el RL estándar parece funcionar a pesar de esta limitación, uno también puede preguntarse qué tan seriamente se puede explorar a través del exploit. Los investigadores sostienen que la brecha se vuelve más pronunciada cuando uno quiere explorar y explotar inteligentemente a través de la adaptación a nivel humano en tareas complejas.

Incluso en dominios sencillos, como el bandido gaussiano de armas múltiples, First-Explore se desempeña mejor, aumentando significativamente el rendimiento en dominios de exploración de sacrificio, como el entorno de Dark Prize Room (donde el valor promedio esperado del premio es negativo). Los hallazgos de ambas áreas problemáticas resaltan la importancia de comprender las diferencias entre optimización y exploración para lograr un aprendizaje efectivo en contexto, específicamente sobre la medida en que cada estrategia cubre el país o el espacio de trabajo y si ayuda o no a lograr una alta recompensa. .

escanear el papel Y enlace github. No olvides unirte Sub Reddit de 26k+MLY canal de discordiaY Y Boletín electrónico, donde compartimos las últimas noticias de investigación de IA, interesantes proyectos de IA y más. Si tiene alguna pregunta sobre el artículo anterior o si nos hemos perdido algo, no dude en enviarnos un correo electrónico a [email protected]

🚀 Echa un vistazo a las herramientas de IA de 100 en el club de herramientas de IA

READ Cyberpunk 2077 Obtenga nuevo contenido con la próxima actualización

Dhanshree Shenwai es ingeniero informático con sólida experiencia en empresas FinTech que abarcan el campo de finanzas, tarjetas, pagos y banca con un gran interés en las aplicaciones de IA. Le apasiona explorar nuevas tecnologías y desarrollos en el mundo cambiante de hoy en día, haciendo que la vida de todos sea más fácil.

💡 Los avances del mañana presentados hoy: ¡Únase al boletín informativo de IA para obtener información exclusiva sobre las últimas investigaciones de IA! 🚀🤖

Eutropio Vivar

«Fanático del café. Amable aficionado a los zombis. Devoto practicante de la cultura pop. Malvado defensor de los viajes. Organizador típico».

Una nueva investigación de IA propone ‘explorar primero’: un marco de IA simple para Meta-RL con dos políticas que aprende, una política solo para explorar y una política que solo aprende a explotar

Deja una respuesta Cancelar la respuesta

Vaya a observar meteoritos en mayo: puede esperar ver 30 meteoros por hora

WePlay Studios: de torneos de eSports a producción de eventos en vivo por José Antunes

Darwin Núñez sorprende los rumores de salida del Liverpool con una clara advertencia sobre traspasos de Arsenal y Chelsea

Un bombero fuera de servicio ha sido elogiado por su rapidez de pensamiento después de rescatar a un hombre de un coche en llamas.