El Archivo de la Web Española como entrenador de los modelos del Procesamiento del Lenguaje Natural

La mayoría de los archivos web llevan algo más de 20 años formando sus colecciones de sitios web, con la esperanza de que vayan adquiriendo valor, según la información vaya desapareciendo en Internet.  Pero, ¿tenemos que esperar tanto tiempo para que nuestras colecciones sean útiles?

El volumen de información que tenemos archivado actualmente conforma uno de los corpus lingüísticos más importantes en lengua castellana. Por esta razón, la Biblioteca Nacional de España ha colaborado con el Centro de Supercomputación de Barcelona para crear el primer modelo de inteligencia artificial masivo de la lengua española. Esta colaboración se enmarca en el Plan de Tecnologías del Lenguaje de la Secretaría de Estado de Digitalización e Inteligencia Artificial del Ministerio de Asuntos Económicos y Agenda Digital.

Los actores

En la Biblioteca Nacional de España llevamos más de 10 años recopilando información de la web. El Archivo de la Web Española (AWE) es una colección joven pero ya sobrepasa el Petabyte de información, lo que supone miles de sitios web guardados, muchos de ellos de manera periódica y durante años.

Por su parte, el Barcelona Supercomputing Center (BSC) es el centro líder de la supercomputación en España. Su especialidad es High Performance Computing. Su función es doble: ofrecer infraestructuras y servicio en supercomputación a científicos españoles y europeos, y generar conocimiento y tecnología para transferirlos a la sociedad.

Los datos

Nuestro modelo de archivado web está basado en un modelo mixto que combina recolecciones masivas y selectivas, como el de la mayoría de las bibliotecas nacionales.

Las recolecciones masivas recogen el mayor número de dominios posible con una profundidad limitada a 150 Megabytes y están vinculadas a nuestro dominio nacional, el .es.

Por su parte, las recolecciones selectivas se hacen para completar las masivas y recogen con mayor profundidad y frecuencia una muestra más pequeña de sitios web, que son seleccionados por su relevancia para la historia, la sociedad y la cultura. No están limitados por el dominio, así que entre ellas encontraremos .es, .com, .org, etc. Estas recolecciones se llevan a cabo por conservadores web, tanto de la BNE, como de los centros de conservación de las comunidades autónomas, que valoran la relevancia de los sitios web desde el punto de vista patrimonial, para la investigación y el estudio de nuestra sociedad en el futuro.

Para el proyecto se utilizó el contenido de las recolecciones web selectivas. Colecciones como la de Política Nacional o Prensa nacional y autonómica, ofrecían una calidad y variedad de datos perfectas.

Depuración de los datos

El resultado de las recolecciones se almacena en ficheros WARC (Web ARChive file format). Para entrenar los modelos del lenguaje solo es necesario el texto, así que debíamos deshacernos de todo lo demás.

El BSC desarrolló un script que nos permitió depurar los ficheros para quedarnos exclusivamente con las etiquetas HTML de texto (párrafos, titulares, keywords…) y desechar todo lo que no fuera útil para el objetivo del proyecto (imágenes, audios, vídeos…).

Esta labor se realizó en la propia Biblioteca, con el fin también de obtener ficheros más manejables. Hay que tener en cuenta que el enorme volumen de información se convertía en un desafío a la hora de transferir los ficheros al BSC, donde debían llegar para ser utilizados.

Una vez en el BSC, se realizó un segundo proceso de limpieza. Éste consistió en eliminar todo aquello que no fuera texto bien formado (oraciones que no terminan, codificaciones erróneas, oraciones duplicadas, otros idiomas, etc.). El resultado eran solo textos bien formados en lengua española, tal y como es realmente utilizada.

Para este cribado y su posterior compilación fue necesaria la utilización del superordenador MareNostrum, el ordenador más potente de España, único capaz de procesar tal volumen de información en un corto periodo de tiempo.

El modelo del lenguaje

El BSC utilizó una tecnología de redes neuronales (basada en la arquitectura Transformer) para entrenar el modelo con el fin de que pudiera aprender a utilizar la lengua. Esta tecnología ya había demostrado excelentes resultados en el inglés.

El resultado es una un modelo que es capaz de comprender la lengua española, su léxico y sus mecanismos para expresar el significado y escribir a nivel experto. Además, es capaz de entender, no sólo conceptos abstractos, sino también de deducir el significado de las palabras según el contexto en el que se utilice.

Se trata del primer modelo masivo de inteligencia artificial aplicado a la lengua española. Es conocido como MarIA y es de acceso público y gratuito. Su consecución supone un hito tanto en la aplicación de la inteligencia artificial a nuestra lengua, como en la colaboración entre bibliotecas nacionales y centros de investigación. Pone en valor la unión de dos instituciones dispares en la consecución de objetivos comunes.

Los usos de MarIA son múltiples: resúmenes automáticos, chatbots, búsquedas inteligentes, motores de traducción, subtitulación automática… amplios campos que promueven el uso del castellano, como lengua para aplicaciones tecnológicas, promoviendo su auge en el mundo. La Biblioteca Nacional de España cumple así con sus objetivos de fomentar la investigación científica y la difusión del conocimiento ayudando a transformar la información en tecnología accesible para todos.

Este artículo ha sido publicado en inglés por IIPC.

Alicia Pastrana García

José Carlos Cerdán Medina

Comparte

Esta entrada tiene 2 comentarios

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *