Internet Archive y el archivo de la web española

Internet Archive es una institución sin ánimo de lucro, pionera en el campo de los archivos web. Archiva la web desde 1996 y desde 2001 da acceso abierto y gratuito a sus más de 150 billones de páginas web a través de la Wayback Machine. Esto le convierte en el mayor y más antiguo archivo web público.

El objetivo de su fundador Brewster Kahle fue el de construir una biblioteca de Internet, donde se conservaran para la posteridad instantáneas de todas las páginas web existentes. Una versión cibernética de la legendaria biblioteca de Alejandría, de acceso abierto y permanente, para “posibilitar el acceso universal a todo el conocimiento humano”.

Kahle, visionario y ardiente activista, contaba además con la experiencia y los conocimientos técnicos para poder llevar a cabo este proyecto. Con la venta en 1995 de su empresa WAIS Inc. (Wide Area Information Server)  aportó el capital inicial para comenzar el Archivo. Actualmente el archivo funciona como una institución sin ánimo de lucro, con sede en San Francisco, en la que trabajan 200 personas, y con un presupuesto procedente de varias fuentes: los ingresos de sus servicios de recolección de la web, contribuciones de asociaciones diversas, subvenciones, donaciones, e ingresos provenientes de la Fundación Kahle-Austin. Según Kahle: «mi definición de una vida bien vivida es estar al servicio de los demás».

Instituciones notables, seducidas por la magnitud del proyecto, su utilidad y audacia técnica, han colaborado con ellos o han requerido sus servicios, es el caso de la Library of Congress, la Biblioteca Nacional de Australia o la Biblioteca Nacional de Francia.

Internet Archive es también miembro fundador del International Internet Preservation Consortium (IIPC), donde ostenta una posición de liderazgo. El IIPC, fundado en 2003 por 11 bibliotecas nacionales e Internet Archive, tiene como misión adquirir, preservar y hacer accesible la información en Internet para el futuro. La Biblioteca Nacional de España forma parte de este consorcio desde 2009.

Todo esto fue tenido en cuenta por la BNE cuando en 2009 eligió al Internet Archive para iniciar con ellos el proyecto de «recolectar, archivar y preservar el dominio.es». En definitiva, la meta era crear un archivo de la web española para facilitar el acceso futuro a todos los contenidos españoles publicados en Internet (webs, blogs, foros, documentos, imágenes, vídeos, etc.).

En la actualidad este Archivo de la Web Española reúne más de 85 TB de información, almacenada en los servidores de Internet Archive en San Francisco y se está trabajando en su traslado para este año 2013 a las instalaciones de la Biblioteca Nacional de España, de forma que sirva como base para el Depósito Legal electrónico, que quedará regulado por el Real Decreto en el que trabaja ahora mismo el MECD. Los planes previstos a partir de ese momento incluyen realizar recolecciones de la web española desde la Biblioteca, con la colaboración del Departamento de Informática, en el marco de un convenio de colaboración con Red.es y de la publicación (que se espera en breve) del Real Decreto que regule el Depósito Legal electrónico. En la selección de contenidos tendrán una participación primordial las Comunidades Autónomas y los distintos departamentos de la BNE.

Comparte

Esta entrada tiene 5 comentarios

  1. ¡Hola! ¿Podrias escribir un how-to para explicar como localizar en vuestro archivo paginas desaparecidas o en trance de desaparecer? Estoy pensando especialmente en paginas patrocinadas por el Estado, como foros antiguos de rediris o las de profesores del PNTIC.

    1. Estamos trabajando para dar acceso al Archivo de la Web Española, que incluye recolecciones del dominio .es desde el año 2009. Cuando ese acceso esté disponible habilitaremos un espacio para que los ciudadanos puedan proponer sitios web que están en peligro de desaparición, de forma que podamos recolectarlos y conservarlos para el futuro. Mientras tanto puede consultar el archivo web de Internet Archive (con el que venimos colaborando desde 2009), accesible gratuitamente a través de la siguiente URL http://archive.org/index.php. Para acceder a las webs archivadas, debe introducir en el buscador (“Search”) las URLs de su interés. En archivos tan grandes la tecnología no permite por el momento la búsqueda a texto completo por palabras clave. Sólo se puede buscar por URL (en su caso por ejemplo http://www.rediris.es/ http://www.pntic.mec.es/profesores/descargas/premios_curriculares/). Los resultados de la búsqueda se muestran por fechas que reflejan las capturas guardadas de esas páginas web. Sólo tienen que pinchar en la fecha deseada. Es la forma habitual de presentar los resultados en los archivos web. Si tiene más preguntas puede dirigirse a archivoweb@bne.es.

  2. Me ha encantado el artículo por ser tan claro y conciso. Supongo que con este proyecto, quedará archivado para la posteridad…

  3. Es verdad, memorioso amigo, es claro y lleno del idealismo y la audacia de los que persiguen una nueva y hermosa utopía, conservar el alma del universo encerrada en la Red.

  4. ¡Estupendo artículo! ¡Mis felicitaciones a la autora por su concienzuda investigación y su claridad expositiva!

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *