Descripción automática de archivos audiovisuales: NeuralTalk, un modelo de video2text aplicado al archivo de RTVE

23 enero, 2019

Virginia Bazán Gil

Bid, ISSN 1575-5886, n. 41, 2018, p. 1-12

 

Desde la década de los ochenta del siglo XX los archivos audiovisuales han experimentado una constante evolución tecnológica que afecta no solo a los formatos en los que los contenidos se almacenan, sino también a su propia esencia. La digitalización no solo ha diluido la frontera entre la producción y el archivo, sino que también ha provocado la transformación tanto de los flujos de trabajo como de los perfiles profesionales. La sobreabundancia de contenidos empuja a los archivos a la incorporación de tecnologías que conviertan el etiquetado en tiempo real en una solución viable. Encuestas realizadas han demostrado que tanto la descripción de escenas,  como el reconocimiento de imágenes, se consideran herramientas potencialmente útiles para el 69% de los archivos. Como es lógico, los proveedores tecnológico no son ajenos a los interesas del sector de los medios de comunicación. Actualmente existen en el mercado distintas herramientas que incorporan muchas de las tecnologías antes mencionadas. Desde el punto de vista tecnológico, los tres pilares sobre los que se sustentan estas herramientas son: visión artificial, tecnologías del habla y procesamiento del lenguaje natural. Una de las primeras aproximaciones existentes para resolver este reto ha sido NeuralTalk, un proyecto llevado a cabo por el científico Andrej Karpathy en un intento de aplicar los últimos avances de investigación en aprendizaje profundo y especialmente en redes neuronales multimodales. Consiste en un software que recibe como entrada una imagen y cuya salida es una descripción en lenguaje natural de su contenido. Liberar el código y los modelos entrenados para esta tarea ha dado lugar a que artistas e ingenieros de todo el mundo, partiendo de este trabajo, crearan otros proyectos demostrativos de los avances de la tecnología. Los resultados obtenidos en esta prueba de concepto son prometedores y demuestran que la tecnología ha avanzado lo suficiente como para que en un futuro sea viable integrar un sistema de vídeo-to-text en un entorno de producción en un archivo de televisión, siempre con supervisión humana. Estos resultados ponen de manifiesto que las soluciones de video-to-text no son adecuadas para contenidos audiovisuales en los que la información relevante se concentra en el audio. Finalmente, podemos concluir que estas soluciones están condicionadas por dos factores fundamentales: la calidad de los datos que se emplean en la fase de entrenamiento y la ambigüedad del lenguaje natural. Este segundo factor refuerza la idea de la necesidad de construir modelos especializados para temáticas concretas que permitan eliminar distorsiones y sesgos en el modelo.

Resumen realizado por José María Amate Sánchez

Comparte: Share on FacebookShare on Google+Tweet about this on TwitterShare on LinkedIn

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *