¿Qué es una recolección web masiva? ¿Para qué sirve?

Pocos se imaginan la dársena de la Biblioteca Nacional de España llena de cajas con todo lo que ingresa por depósito legal. Impresiona. En la BNE ingresan dos ejemplares de todo lo que se publica en España en soporte físico. ¡De todo! Podríamos decir que el depósito legal implica recolectar de forma masiva la producción editorial española.

pila-papeles

Pero ¿y lo que se publica en internet? Eso también es objeto de depósito legal. La información en línea es especialmente efímera. Y hay tanto que se ha perdido ya para siempre que cuando miremos hacia atrás dentro de unos treinta o cincuenta años veremos que efectivamente lo que estamos viviendo ahora es una «edad oscura digital«. ¿Y qué hacemos para que ese agujero no crezca? Ahora tenemos que remontarnos veinte años atrás.

Con la explosión de internet y el aumento exponencial de la información disponible en línea, alguna biblioteca nacional como la de Suecia y, sobre todo, la organización sin ánimo de lucro Internet Archive, fueron conscientes -allá por 1996- de la importancia de preservar esa información tan efímera para las generaciones futuras, en el caso de Internet Archive con el objetivo de «poner a disposición de todos la mayor biblioteca de internet».

Desde entonces muchas bibliotecas nacionales han seguido sus pasos y han creado archivos web para preservar el patrimonio documental en línea: Australia, Nueva Zelanda, Reino Unido, Francia, EE.UU., Canadá, Japón, Dinamarca… Y la mayoría de los países con legislación sobre depósito legal la han adaptado para incluir como objeto de preservación documental  los sitios web y las publicaciones en línea.

Los sitios web se archivan gracias a un software «recolector» llamado Heritrix, que navega por la web como cualquiera de nosotros, pinchando en todos los enlaces y guardando todo lo que encuentra a su paso (imágenes, texto, video, audio…). Cuando se accede a lo archivado, los sitios web se muestran como en la web viva, con la misma estructura y apariencia, y es posible navegar por ellos, como si navegáramos en internet. El resultado de todas las recolecciones se conoce como archivo web.

Ephemera

[Habilitaciones. Figuras y retratos de mujeres] / Compañía Litográfica de La Habana

Pero, ¿es posible guardarlo todo? ¿Todo lo que se publica en internet? No. Es imposible. Y alguno incluso dirá: “¿Y para qué íbamos a guardar todo?” En internet hay mucho contenido intrascendente, incluso lo que algunos consideran «basura». Los bibliotecarios y documentalistas sabemos que debemos andarnos con cuidado de no calificar la documentación, porque la Historia (y los investigadores) te dejan mal a la vuelta simplemente de una década.

Pongo un ejemplo. La Biblioteca Nacional de España adquiere, conserva, digitaliza y difunde una colección de documentos que llamamos Ephemera y que contiene, entre una gran variedad, envoltorios de caramelos, paipais, carnés de baile, recordatorios de comunión, vitolas de puros, prospectos de cine o cromos de Gallina Blanca. Y, aunque algunos en su momento pudieran pensar que era una frivolidad conservarlos, es una colección muy consultada y valorada por los investigadores. ¿Quién se hubiera imaginado que una colección de envoltorios de caramelos podría tener algún valor patrimonial? Y es que esos documentos «menores» reflejan una sociedad, un momento histórico determinado y la evolución cultural y socioeconómica de un país, retrato que sería muy incompleto si esa colección no se hubiera preservado.

¿Quién habría imaginado que una colección de envoltorios de caramelos tuviera valor patrimonial? Clic para tuitear

Si aplicamos el mismo argumento gran-hermanoa lo que se publica en internet, creo que todos coincidiríamos en que debemos preservar la prensa digital, las revistas especializadas, los libros electrónicos, los blogs literarios, los sitios web institucionales o los vídeos… Aquí ya alguno diría: «bueno, pero no todos, que se cuelgan muchas tonterías».Y muchos opinarán que la publicidad, los «realities» o los canales de videntes NO son contenidos destinados a conservarse en una colección patrimonial. Pero si tratamos de ponernos en el lugar de un investigador dentro de 20 o 30 años sin irnos más lejos, es muy probable que lo que hoy se da en llamar telebasura, las tiendas en línea o los memes que se generan al hilo de la actualidad sean contenidos más buscados por los investigadores que la propia prensa digital.

La importancia de la recolección web masiva

En 2009, la Biblioteca Nacional de España dio el primer paso en la construcción del Archivo de la Web Española, contratando con Internet Archive la recolección masiva del dominio .es. A esta siguieron siete más, hasta que en 2016, la BNE tuvo desarrollada su propia infraestructura para poder llevar a cabo una recolección masiva, que consume una cantidad de recursos considerable.

Las recolecciones masivas rastrean un dominio completo, en nuestro caso el .es, sin exclusiones Clic para tuitear

Las recolecciones masivas tienen por objetivo rastrear un dominio completo, en nuestro caso el .es, sin exclusiones ni selecciones. De esta manera, se obtiene un panorama global de la web de un país en un momento dado. Para obtener esta «foto», suele hacerse una recolección masiva por año, aunque esto depende en cada país de la política de archivado web establecida. El robot recolector, al que se le proporciona la lista de dominios .es registrados en España, los rastrea todos y archiva el contenido que encuentra a su paso, de acuerdo con una configuración determinada. En este proceso en 2016 -que tardó en completarse tres meses- se rastrearon en torno a 1.800.000 dominios .es registrados y se almacenaron en torno a 20 Tb de información.

rey-abdicaJunto a las recolecciones masivas, el otro pilar en el que se asientan los archivos web son las recolecciones selectivas. Estas contienen la información significativa sobre eventos (la abdicación de Juan Carlos I, los procesos electorales…) o materias determinadas (Bellas Artes, Fondo antiguo, Música y audiovisuales…) que seleccionan los documentalistas especializados en esta tarea (a los que llamamos conservadores web), por considerarlas de especial importancia para su preservación futura en relación con la materia de la que se trate.

Combinando ambos tipos de recolecciones se consigue un mayor equilibrio de la colección web obtenida. Con las masivas abarcamos más, pero profundizamos menos y no podemos analizar la calidad de todo lo recolectado. Con las selectivas, elegimos bien lo que queremos guardar en torno a un tema y podemos hacer control de calidad de lo archivado, pero esa selección está sujeta a una subjetividad difícil de eludir, por mucho que distintas instituciones de todo el mundo hayan intentado fijar unos criterios objetivos de selección, hasta ahora sin éxito.

Una recolección masiva guarda todo lo que está en el dominio .es, sin filtros, y seguro que esconde muchas sorpresas para los investigadores del futuro. Con el paso de los años nos ayudará a hacernos una idea de lo que era la web española a comienzos del siglo XXI.

Comparte

Esta entrada tiene 5 comentarios

  1. Es ya una realidad ineludible, y no podía imaginar nada mejor. Estoy contenta por mi, y claro por Mar Pérez Morillo, que tan bien hace el relato del Archivo de Internet, y Montse Oliván, nuestra compi que nos dejó.
    Pero sobre todo estoy contenta por el futuro de todos, porque no podemos siquiera evaluar cuanto beneficio podemos esperar de este archivo. Enhorabuena, Mar

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *