Las discapacidades motoras afectan actualmente a aproximadamente 5 millones de personas en los Estados Unidos. Los robots de asistencia física no sólo tienen la capacidad de ayudar a estas personas con las tareas diarias, sino que también pueden aumentar significativamente la independencia, el bienestar y la calidad de vida.
Los grandes modelos lingüísticos que pueden comprender y generar lenguaje y símbolos humanos han sido cruciales para una comunicación eficaz entre humanos y robots. Un grupo de investigadores del Instituto de Robótica de la Universidad Carnegie Mellon reconoció la importancia de los grandes modelos de lenguaje y decidió que el desarrollo de interfaces más innovadoras mejoraría la comunicación entre individuos y robots de asistencia, lo que conduciría a una mejor atención para aquellos afectados por discapacidades motoras.
El grupo de investigación, que incluye profesores y estudiantes del Laboratorio de Atención Robótica e Interacción Humana (RCHI), el Laboratorio de Socios Humanos y Robóticos (HARP) y el Laboratorio de Máquinas Blanda (SML), propuso VoicePilot, un marco y pautas de diseño para integrar Los LLM como interfaces de voz para robots de asistencia física.
Como expertos en interacción humano-robot, el equipo se aseguró de que su enfoque estuviera centrado en el ser humano, lo que convirtió a VoicePilot en el primero en involucrar a humanos interactuando directamente con el LLM integrado en un robot de asistencia física.
El artículo de VoicePilot ha sido aceptado para su publicación en el Simposio sobre tecnologías y software de interfaz de usuario (Universidad Europea de Ciencia y Tecnología 2024), que se celebrará en Pittsburgh en octubre. disponible en arksif Servidor de preimpresión.
«Creemos que los programas de maestría en ciencias del habla son clave para desarrollar interfaces de voz robustas y personalizables para robots de asistencia que puedan proporcionar a los robots la capacidad de interpretar comandos de alto nivel y personalizaciones detalladas», dijo Jesse Yuan, coautor y estudiante universitario. Estudiante del Laboratorio de Cuidado Robótico e Interacción Humana.
El grupo implementó la interfaz de voz basada en LLM en Obi, un robot asistente de alimentación disponible comercialmente. Con Obi, el objetivo era que los usuarios proporcionaran instrucciones personalizadas tal como lo harían con un cuidador humano y que esas instrucciones personalizadas se implementaran con éxito.
Para probar la eficacia de VoicePilot, el equipo realizó su estudio en humanos en 11 personas mayores que residen en un centro de vida independiente. Utilizando tareas predefinidas, una sesión de alimentación abierta y un análisis de las grabaciones de audio recopiladas durante el estudio, recopilaron datos para proporcionar pautas de diseño para incorporar LLM en interfaces de asistencia.
El equipo utilizó los datos recopilados para identificar cinco pautas clave para integrar LLM como interfaces de voz: la integración debe proporcionar opciones de personalización, realizar múltiples funciones secuencialmente, ejecutar comandos a velocidades similares a las de un cuidador, ejecutar comandos de manera consistente y debe tener la capacidad de interactuar socialmente. con el usuario.
«Nuestro marco y directrices propuestos ayudarán a los investigadores, ingenieros y diseñadores tanto del mundo académico como de la industria a desarrollar interfaces de voz basadas en LLM para robótica de asistencia», dijo Akhil Padmanabha, coautor y estudiante de doctorado en el Instituto de Robótica.
Para más información:
Akhil Padmanabha et al., VoicePilot: Aprovechamiento de los LLM como interfaces de voz para robots de asistencia física, arksif (2024). DOI: 10.48550/arxiv.2404.04066
MartirioVoicePilot Framework mejora la comunicación entre humanos y robots de asistencia física (29 de agosto de 2024) Obtenido el 29 de agosto de 2024 de https://techxplore.com/news/2024-08-voicepilot-framework-communication-humans-physiically.html
Este documento está sujeto a derechos de autor. Independientemente de cualquier trato justo con fines de estudio o investigación privados, ninguna parte del mismo puede reproducirse sin permiso por escrito. El contenido se proporciona únicamente con fines informativos.
«Fanático del café. Amable aficionado a los zombis. Devoto practicante de la cultura pop. Malvado defensor de los viajes. Organizador típico».