Las aplicaciones exitosas de aprendizaje por refuerzo (RL) incluyen tareas desafiantes como control de plasma, diseño molecular, juegos y control de robots. A pesar de su potencial, el RL tradicional es un espécimen muy ineficiente. Aprender una tarea que un humano puede realizar en unos pocos intentos puede llevar a un agente a cientos de miles de bucles de juego.
Los estudios muestran las siguientes razones para la ineficiencia de la muestra:
- El precedente complejo, como el sentido común humano o la vasta experiencia, está más allá del alcance de las capacidades típicas de condicionamiento de RL.
- El RL tradicional no puede personalizar cada exploración para que sea lo más útil posible; En cambio, se modifica mediante el refuerzo repetido de conductas previamente adquiridas.
- Tanto la RL tradicional como la meta-RL utilizan la misma política para la exploración (recopilación de datos para mejorar la política) y la explotación (obtención de una gran recompensa por el episodio).
Para abordar estas deficiencias, los investigadores de la Universidad de Columbia Británica, el Instituto Vector y la Cátedra canadiense CIFAR AI presentan First-Explore. Este marco ligero Meta-RL aprende un conjunto de políticas: una política de exploración inteligente y una política de explotación inteligente. El aprendizaje a nivel humano, contextual y de muestra efectiva de Meta-RL en dominios de exploración desconocidos y desafiantes, como dominios hostiles que requieren el sacrificio de la recompensa para investigar de manera efectiva, es posible a través de First-Explore.
El desarrollo de algoritmos de desempeño humano en áreas de exploración desafiantes encontradas anteriormente es uno de los principales obstáculos en el desarrollo de la inteligencia artificial general (AGI). El equipo sugiere que combinar First-Explore con un plan de estudios, como el Currículo de AdA, podría ser un paso en la dirección correcta. Creen que tal progreso conducirá a los beneficios potencialmente significativos de la IA si pueden abordar adecuadamente los problemas de seguridad reales y graves asociados con el desarrollo de la IA.
Los recursos computacionales asignados a la aleatorización de campo de manera temprana permiten que First-Explore aprenda la exploración inteligente, como buscar exhaustivamente las primeras diez actividades y luego priorizar el muestreo de alta recompensa. Sin embargo, una vez entrenada, la estrategia de exploración puede ser increíblemente efectiva al aprender nuevas tareas. Dado que el RL estándar parece funcionar a pesar de esta limitación, uno también puede preguntarse qué tan seriamente se puede explorar a través del exploit. Los investigadores sostienen que la brecha se vuelve más pronunciada cuando uno quiere explorar y explotar inteligentemente a través de la adaptación a nivel humano en tareas complejas.
Incluso en dominios sencillos, como el bandido gaussiano de armas múltiples, First-Explore se desempeña mejor, aumentando significativamente el rendimiento en dominios de exploración de sacrificio, como el entorno de Dark Prize Room (donde el valor promedio esperado del premio es negativo). Los hallazgos de ambas áreas problemáticas resaltan la importancia de comprender las diferencias entre optimización y exploración para lograr un aprendizaje efectivo en contexto, específicamente sobre la medida en que cada estrategia cubre el país o el espacio de trabajo y si ayuda o no a lograr una alta recompensa. .
escanear el papel Y enlace github. No olvides unirte Sub Reddit de 26k+MLY canal de discordiaY Y Boletín electrónico, donde compartimos las últimas noticias de investigación de IA, interesantes proyectos de IA y más. Si tiene alguna pregunta sobre el artículo anterior o si nos hemos perdido algo, no dude en enviarnos un correo electrónico a [email protected]
🚀 Echa un vistazo a las herramientas de IA de 100 en el club de herramientas de IA
Dhanshree Shenwai es ingeniero informático con sólida experiencia en empresas FinTech que abarcan el campo de finanzas, tarjetas, pagos y banca con un gran interés en las aplicaciones de IA. Le apasiona explorar nuevas tecnologías y desarrollos en el mundo cambiante de hoy en día, haciendo que la vida de todos sea más fácil.
«Fanático del café. Amable aficionado a los zombis. Devoto practicante de la cultura pop. Malvado defensor de los viajes. Organizador típico».