Web de la asignatura de Informática Documental (3º ITIG)

Resumen del programa de teoría

Tema 1. Bases de Datos y Técnicas Documentales

Este tema presenta una introducción a las bases de datos documentales y las diferentes técnicas documentales, ofreciendo una visión general del contexto y tipología de las bases de datos documentales, análisis documental e indización de documentación automatizada. En primer lugar, analiza el contexto de las bases de datos documentos comparándolo con el contexto de los sistemas de bases de datos habituales y las diferencias existentes en estructuración, lenguajes y formas de acceso. Además, presenta el análisis documental como mecanismo de caracterización de los documentos en función de la relevancia de los términos que contiene. Por último, se centra en la presentación de los lenguajes documentales utilizados como lenguajes de control terminológico. Dentro de los lenguajes documentales, destacamos el tesauro como lenguaje documental clásico en las sistemas de bases de datos documentales. Para el tesauro, proporcionaremos una representación informática sencilla de todas las relaciones que define.

Tema 2. Fundamentos de los Sistemas de Recuperación Documental

Este tema introduce los fundamentos de los sistemas de recuperación de información, presentando la arquitectura de estos sistemas, su descripción funcional, y el proceso de recuperación de documentación automatizada. Dentro del proceso, se especifica la diferencia existente entre recuperación documental y recuperación de datos. Además, se presenta el concepto clave de la recuperación, la relevancia, que provoca hablar en recuperación documental de la calidad de la respuesta. Dentro de la arquitectura de los sistemas, presentamos los diferentes elementos, haciendo especial hincapié en la retroalimentación por relevancia. Finalizamos el tema presentando el proceso de consulta y las posibilidades actuales de los sistemas de documentación automatizada.

Tema 3. Recuperación Documental Booleana

Este tema presenta un modelo de recuperación clásico como es la recuperación boolena, donde la principal característica es la consideración de la relevancia con un carácter puramente binario. Dentro del modelo, se presenta el lenguaje de consulta, y el mecanismo de indización utilizando los denominados índices inversos o archivos fantasma. Por último, especificamos la problemática del modelo, básicamente en la línea de considerar la relevancia como un aspecto puramente binario, y las extensiones que se pueden especificar para el manejo de pesos en el modelo booleano.

Tema 4. Recuperación Documental Espacio-Vectorial

Este tema presenta uno de los modelos de recuperación más implementados en la mayoría de los sistemas de recuperación documental, concretamente el modelo de recuperación espacio-vectorial. En primer lugar, analizamos la representación de documentos como vectores en un espacio k-dimensional, donde k corresponde con el número de términos de indización. A continuación, definimos la función de semejanza, representada mediante la distancia coseno entre dos vectores en el espacio k-dimensional. Posteriormente, nos centramos en las operaciones de texto, básicamente, las operaciones ligadas con el proceso de lematización, o reducción de términos por la raíz. Por último, dentro del modelo de recuperación, presentamos el proceso ponderación y consulta con la matriz de asociación documento términos de indización. La última parte del tema la dedicados a presentar muy brevemente un sistema de recuperación en la línea de SMART de G. Salton.

Tema 5. Evaluación de la Recuperación Documental

Este tema se centra en la evaluación de los sistemas de recuperación de documentación automatizada, presentando los diferentes parámetros que permiten analizar la eficacia y efectividad de un sistema de recuperación, así como las colecciones de prueba que se utilizando dentro del proceso de evaluación del rendimiento. Destacar también la comparativa que se realiza entre los parámetros habituales de rendimiento, tiempo y espacio, que resultan insuficientes para evaluar el rendimiento de un sistema de recuperación documental.

Tema 6. Nuevas Perspectivas en los Sistemas Documentales

Este tema proporciona una visión global de las perspectivas actuales de los sistemas de documentación automatizada. Por un lado, se centra en la aplicación de la recuperación de información en Internet, proporcionando una visión general de la búsqueda en la Web. Esta visión incluye la arquitectura de los motores de búsqueda, las páginas por ranking e indización de páginas por enlaces. Por otro lado, finaliza el tema con la presentación de las bibliotecas digitales, analizando la nueva perspectiva orientada a los portales de Internet.