Annif y Finto AI: desarrollo e implementación de la indexación temática automatizada

por | 1 junio, 2022
image_pdfDescargar entrada en pdf

Annif and Finto AI: Developing and Implementing Automated Subject Indexing

Osma Suominen, Juho Inkinen, Mona Lehtinen

JLIS.it, ISSN 20381026-5224, v. 13, n.1, 2022, p. 265–282

La indexación manual de documentos para el acceso por materias es un proceso que requiere mucho trabajo y que puede automatizarse con la tecnología de IA. Los algoritmos de clasificación de textos deben entrenarse y probarse con ejemplos de documentos indexados, que pueden obtenerse de las bases de datos bibliográficas y las colecciones digitales existentes. La Biblioteca Nacional de Finlandia ha creado Annif, un conjunto de herramientas de código abierto para la indexación y clasificación automatizada de materias. Annif es multilingüe, independiente del vocabulario de indización y modular. Integra muchos algoritmos de clasificación de textos, como Maui, fastText, Omikuji y un modelo de red neuronal basado en TensorFlow. Los mejores resultados suelen obtenerse combinando varios algoritmos. Se han utilizado muchos corpus de documentos para el entrenamiento y la evaluación de Annif. Encontrar los algoritmos y las configuraciones que dan la mejor calidad es un esfuerzo continuo. En mayo de 2020, lanzamos Finto AI, un servicio de indexación temática automatizada basado en Annif. Ofrece un sencillo formulario web para obtener sugerencias de temas para el texto. La funcionalidad también está disponible como una API REST. Muchos depósitos de documentos y el sistema de catalogación de publicaciones electrónicas de la Biblioteca Nacional de Finlandia lo utilizan para integrar la indexación temática semiautomática en sus flujos de trabajo de metadatos. En el futuro, vamos a ampliar Annif con más algoritmos y nuevas funcionalidades, y a integrar Finto AI con otros flujos de trabajo de gestión de metadatos.

https://www.jlis.it/index.php/jlis/article/view/437

Traducción del resumen de la propia publicación

Comparte:

Deja una respuesta

Tu dirección de correo electrónico no será publicada.