Investigadores en Universidad Stanford fuente abierta Propagación-LM, un modelo de lenguaje generativo no autorregresivo que permite un control preciso sobre el texto de salida del modelo. Al evaluar tareas de generación de texto controlado, Diffusion-LM supera a los métodos existentes.
El modelo y los experimentos se describen en un artículo de investigación publicado en arXiv. Diffusion-LM es un modelo de lenguaje generativo que utiliza un archivo Conecta y reproduce El sistema de control, en el que se fija el modelo de lenguaje, y su creación está dirigida por un clasificador externo que determina en qué medida el texto generado coincide con los parámetros requeridos. Los usuarios pueden seleccionar varias funciones para el resultado deseado, incluidas las partes del discurso requeridas, el árbol de sintaxis o la longitud de la oración. Durante la generación, Diffusion-LM reduce iterativamente el ruido para un conjunto de vectores latentes, con el controlador externo proporcionando actualizaciones de gradiente para dirigir los vectores latentes para generar la salida deseada. Cuando se evaluó en una variedad de tareas de control, Diffusion-LM superó «significativamente» a los métodos de referencia. Según el equipo de investigación,
Consideramos que los complejos controles habilitados para Diffusion-LM son convincentes y estamos entusiasmados con la forma en que Diffusion-LM es una desviación fundamental del modelo actual de generación autorregresiva discreta.
Muchos modelos de lenguaje generativo (LM), como GPT-3, autorregresivo; Es decir, generan repetidamente un texto al predecir la siguiente palabra en una secuencia, luego agregan esa palabra a la secuencia actual y usan la secuencia actualizada como entrada para futuras predicciones. Estos formularios pueden generar texto que es indistinguible del texto escrito por humanos, y los formularios pueden generar texto para resolver una amplia gama de problemas, desde responder preguntas hasta chat interactivo. Sin embargo, es difícil proporcionar a cualquier usuario control sobre la salida resultante; Por ejemplo, la longitud deseada de una oración, la estructura o una emoción.
Una posible solución a este problema es configurar el LM para que pueda tomar una entrada de control adicional, pero esta actualización puede ser extensa y no se puede generalizar para manejar múltiples parámetros de control. Otra solución es la tecnología plug-and-play, que mantiene congelados los parámetros de LM y dirige la generación con un clasificador externo que evalúa qué tan cerca está la salida resultante de los parámetros deseados. Sin embargo, los intentos de dirigir modelos autorregresivos han resultado difíciles.
En lugar de intentar dirigir el LM autorregresivo, los investigadores de Stanford optaron por utilizar una nueva tecnología de generación de lenguaje: el modelo de difusión. Estos modelos mostraron Buenos resultados en visión artificial y otras áreas continuas; Sin embargo, no se aplica a la creación de texto, que es un área separada. Según el equipo, Diffusion-LM es el primer modelo de implementación de generación de texto.
Para hacer que Diffusion-LM funcione, el equipo modificó el modelo de difusión estándar de dos maneras. Primero, definen una función de incrustación que mapea palabras en vectores en el espacio latente continuo del modelo de difusión. En segundo lugar, definieron el método de «redondeo» para asignar estos vectores a palabras separadas. Para generar un texto, el modelo parte de un vector aleatorio en el espacio latente; Esto se trata como una versión ruidosa de la inclusión de la oración resultante. Luego, el formulario lo elimina repetidamente; En cada paso, la inserción se pasa a un clasificador externo, lo que da como resultado una actualización gradual de la inserción para el siguiente paso de la iteración. Cuando se completan las iteraciones, el método de redondeo establece la inclusión final de una salida de texto.
Fuente de imagen: https://arxiv.org/abs/2205.14217
El equipo de Stanford evaluó Diffusion-LM en cinco tareas de control para la generación de un texto dirigido a partir del libro de trabajo y comparó su rendimiento con los métodos de referencia utilizando GPT-2 Regresión automática de LM, utilizando plug-and-play y ajuste fino. En las cinco tareas, Diffusion-LM superó a otros métodos plug-and-play; También superó el ajuste fino de dos tareas al desempeñarse «de manera similar» a las otras tres. El equipo también evaluó Diffusion-LM en una tarea de relleno de texto no guiada en comparación con tres modelos base diferentes; Superé a un par de ellos y logré un rendimiento «similar» al de un modelo autorregresivo que fue especialmente entrenado en relleno.
El equipo descubrió que Diffusion-LM era más lento que los otros modelos, tanto para el entrenamiento como para la decodificación en tiempo de ejecución. También obtuvo su peor resultado en perplejidad. En un hilo de Twitter sobre el trabajo, el autor principal Lisa Xiang señaló:
Diffusion-LM muestra un sólido rendimiento en la generación controlable, pero sigue siendo una pregunta abierta si puede coincidir con los LM autorregresivos en [perplexity] y velocidad
los Código de propagación – LM Disponible en github.