Google Books, que indexa materiales publicados que se han vuelto esenciales para los académicos, ha comenzado a indexar libros de baja calidad, lo que puede afectar la forma en que informa a su herramienta de seguimiento del idioma, Ngram.
404 medios Informes Google Books incluía varios libros que podrían haber sido escritos por inteligencia artificial. La publicación buscó en Google Books utilizando el término “a partir de la última actualización de mi información”, una frase común utilizada por chatbots como ChatGPT. Puede buscar frases o términos específicos en Google Libros y, por lo general, le enviará trabajos escritos que contengan esas frases.
Descubrí que la mayoría de los libros en las primeras páginas de la búsqueda eran trabajos sobre inteligencia artificial, pero entre esos resultados había libros que no trataban sobre tecnología y parecían estar escritos por un robot.
404 medios Ella dijo que los libros que encontró, como los libros de Tristin McIver Osos, toros y lobos: negociación de acciones para jóvenes de 20 años, parecía que Wikipedia había sido rastreada en busca de información sobre eventos financieros e incluía la frase «A partir de la última actualización de mi información». Otros libros sobre temas como Twitter todavía contienen información de 2021, cuando algunos modelos de IA tuvieron datos de entrenamiento por última vez.
Google Books constituye la mayor parte de los datos que impulsan su Ngram Viewer, una herramienta de investigación que rastrea cómo cambia el idioma con el tiempo. Ngram toma información de trabajos escritos para mostrar cómo se desarrolló el uso del lenguaje.
Google Books ha escaneado e indexado obras escritas que se remontan al siglo XVI, y Ngram actualizó por última vez sus datos de citas en 2019. Aunque Ngram no es perfecto, muchos lingüistas y otros académicos utilizan la herramienta para recopilar investigaciones.
Google dijo 404 medios Los trabajos recientes en Google Books no aparecen en los resultados de Ngram, pero pueden incluirse en futuras actualizaciones de datos.