Este artículo sobre IA de la Universidad Carnegie Mellon y Apple presenta WRAP: una herramienta innovadora para el entrenamiento previo de modelos de lenguaje utilizando datos sintéticos.

Este artículo sobre IA de la Universidad Carnegie Mellon y Apple presenta WRAP: una herramienta innovadora para el entrenamiento previo de modelos de lenguaje utilizando datos sintéticos.
https://arxiv.org/abs/2401.16380

Los modelos de lenguajes grandes (LLM) han atraído una enorme atención y popularidad entre la comunidad de inteligencia artificial (IA) en los últimos meses. Estos modelos demostraron grandes habilidades en tareas que incluyen resumir texto, responder preguntas, completar código, crear contenido, etc.

Los LLM frecuentemente reciben capacitación sobre datos insuficientes extraídos de la web. La mayoría de las veces, estos datos son ruidosos, no estructurados y no necesariamente expresados ​​con claridad. Seguir los principios de escalamiento actuales, que sugieren que a medida que aumenta el tamaño del modelo, la potencia computacional y la cantidad de datos también deben aumentar proporcionalmente, es un desafío.

Hay dos limitaciones principales. En primer lugar, está el gran coste computacional y el tiempo que implica la formación previa. En segundo lugar, está el problema inminente de la escasez de datos de alta calidad disponibles en Internet. En un artículo reciente, un equipo de investigadores de Apple y la Universidad Carnegie Mellon abordó estos problemas introduciendo la idea de Web Refactoring Augmented Pretraining (WRAP).

WRAP es un método innovador que aprovecha un LLM ya existente con conjunto de instrucciones. Este MBA se utiliza para reformatear páginas de Internet en ciertos estilos, incluida la imitación del estilo de Wikipedia o la conversión de texto a un formato de preguntas y respuestas. El objetivo principal de WRAP es mejorar la formación previa de los LLM añadiendo datos reales y reelaborados artificialmente.

Las características básicas de WRAP son las siguientes:

  1. Entrenamiento previo eficiente: la aplicación de WRAP al ruidoso conjunto de datos C4 acelera significativamente el entrenamiento previo, casi tres veces más rápido. Esta eficiencia es crucial para reducir los altos gastos y el compromiso de tiempo típicamente asociados con la capacitación LLM.
  1. Mejorar el rendimiento del modelo: WRAP mejora el rendimiento del modelo cuando se ejecuta dentro del mismo presupuesto computacional. Utilizando diferentes subconjuntos de Pile, el conjunto de datos a gran escala utilizado para entrenar y evaluar el MBA reduce la ambigüedad en más del 10%. Mejora la precisión de las respuestas a las preguntas en más del 2 % para 13 actividades diferentes.
  1. Parafrasear documentos web: WRAP utiliza un programa LLM de gama media para reformatear documentos de la web en varios estilos. Este método se diferencia de la creación de nuevos datos porque mejora el contenido existente manteniendo la calidad y diversidad de la información original.
READ  Canales de Google Jony Ive en el anuncio promocional del conector para auriculares Pixel 5a

Los datos sintéticos producidos por WRAP tienen dos beneficios principales. En primer lugar, incluye un conjunto de enfoques que reflejan la diversidad de lenguajes utilizados en aplicaciones posteriores. Con esta diversidad, un LLM está mejor preparado para una amplia gama de eventos del mundo real. En segundo lugar, los datos sintéticos reconstruidos son de mayor calidad que los datos sin procesar extraídos de la web. Esta mejora de la calidad da como resultado un lenguaje más organizado y coherente, lo que promueve un aprendizaje de modelos más eficiente.

En conclusión, WRAP supone un gran avance en el campo de la formación previa en LLM. Al utilizar datos sintéticos de alta calidad de diferentes tipos, WRAP no solo acelera el proceso de capacitación sino que también mejora el desempeño general de los LLM. Dada la abundancia de datos web de baja calidad y la naturaleza intensiva en recursos de los métodos clásicos de formación de LLM, este enfoque representa un posible camino a seguir.


Comprobar el papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además no olvides seguirnos. Gorjeo Y noticias de Google. Uniones Tenemos más de 36k ML SubReddit, Más de 41.000 comunidades de Facebook, canal de discordiaY LinkedIn abuelaop.

Si te gusta nuestro trabajo, te encantará nuestro trabajo. las noticias..

No olvides unirte a nosotros canal de telegramas

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *