En una oficina abierta y abarrotada en Mountain View, California, un robot alto y delgado con ruedas estaba ocupado desempeñando el papel de guía turístico y asistente de oficina no oficial, gracias a una importante actualización del modelo de lenguaje, Google DeepMind. Fue revelado hoyEl robot utiliza la última versión del modelo de lenguaje Gemini de Google para analizar comandos y orientarse.
Por ejemplo, cuando alguien le dice «Búscame un lugar para escribir», el robot despega silenciosamente y lleva a la persona a una pizarra limpia ubicada en algún lugar del edificio.
La capacidad de Gemini para manejar video y texto, así como su capacidad para absorber grandes cantidades de información en forma de recorridos en video pregrabados de la oficina, permite que el robot Asistente de Google comprenda su entorno y navegue correctamente cuando se le dan comandos que requieren algo de tiempo. sentido común. El robot combina Gemini con un algoritmo que genera acciones específicas que debe realizar el robot, como girar, en respuesta a órdenes y lo que ve frente a él.
Cuando Gemini se lanzó en diciembre, el director ejecutivo de Google DeepMind, Demis Hassabis, dijo a WIRED que sus capacidades multimodales probablemente abrirían el camino a nuevas capacidades robóticas. Añadió que los investigadores de la empresa están trabajando arduamente para probar las capacidades robóticas del modelo.
en Nuevo papel Al explicar el proyecto, los investigadores detrás del trabajo dicen que el robot demostró ser 90% confiable en la navegación, incluso cuando se le dieron comandos difíciles como «¿Dónde dejé mi montaña rusa?» El sistema DeepMind «mejoró significativamente la naturaleza de la interacción entre humanos y robots y aumentó significativamente la usabilidad del robot», escribe el equipo.
La demostración demuestra claramente el potencial que tienen los grandes modelos de lenguaje para llegar al mundo físico y realizar un trabajo útil. Gemini y otros chatbots operan principalmente dentro de los límites de un navegador web o una aplicación, aunque son cada vez más capaces de manejar información visual y auditiva, como han demostrado recientemente Google y OpenAI. En mayo, Hassabis demostró una versión mejorada de Gemini capaz de comprender el diseño de la oficina visto a través de la cámara de un teléfono inteligente.
Los laboratorios de investigación académicos e industriales se apresuran a descubrir cómo se pueden utilizar los modelos de lenguaje para mejorar las capacidades de los robots. programa Para la Conferencia Internacional sobre Robótica y Automatización, un evento popular para investigadores de robótica, hay casi dos docenas de artículos que incluyen el uso de modelos de lenguaje visual.
Los inversores son verter dinero En startups que buscan aplicar los avances de la inteligencia artificial a la robótica. Desde entonces, muchos de los investigadores involucrados en el proyecto Google dejaron la empresa para fundar una startup llamada Google. Inteligencia físicaQTech recibió una financiación inicial por valor de 70 millones de dólares. Combina grandes modelos de lenguaje con capacitación en el mundo real para brindar a los robots capacidades generales de resolución de problemas. EA expertoAutomobili, fundada por expertos en robótica de la Universidad Carnegie Mellon, busca lograr un objetivo similar. Este mes, anunció una financiación de 300 millones de dólares.
Hace apenas unos años, un robot necesitaba un mapa de su entorno y comandos cuidadosamente seleccionados para navegar con éxito. Los grandes modelos de lenguaje contienen información útil sobre el mundo físico, y las versiones más nuevas que se basan en imágenes, videos y texto, conocidas como modelos de lenguaje de visión, pueden responder preguntas que requieren cognición. Gemini permite al robot de Google analizar instrucciones visuales y habladas, siguiendo un diagrama de pizarra que muestra una ruta hacia un nuevo destino.
En su artículo, los investigadores dicen que planean probar el sistema en diferentes tipos de robots. Añaden que Géminis debería poder comprender preguntas más complejas, como «¿Tienen hoy mi bebida favorita?» De un usuario que tiene muchas latas de Coca-Cola vacías en su escritorio.