José M. Perea, de la Universidad de Jaén, nos presenta una revisión de la tarea de expansión de la consulta, es decir, de añadir nuevos términos relevantes a partir de la consulta original, aplicada a la Recuperación de Información Geográfica (GIR por sus siglas en inglés). Ésta área se enfoca en recuperar documentos relacionados con información geográfica como países, regiones, referencia a monumentos, coordenadas, etc. Estos sistemas combinan la búsqueda temática con restricciones geográficas. Pero ambas búsquedas están relacionadas mediante una relación. Por ejemplo, "Accidente de avión cerca de ciudades rusas". Este es un campo multidisciplinar pues afectan a áreas de recuperación de información, procesamiento del lenguaje o descubrimiento del conocimiento.
La expansión de la pregunta es un paso clásico en el área de la Recuperación de Información (IR) pero las técnicas tradicionales de expansión suelen fallar en GIR debido a la ambigüedad de muchos términos geográficos. Por lo tanto, para estas tareas se aplican técnicas concretas de expansión especialmente diseñadas para la información geográficas.
Terminó la presentación presentando el sistema SINAI-GIR que combina varias propuestas de expansión de la consulta en un sistema de recuperación de información geográfica.
Esta tesis presenta la definición de un modelo de representación de la información textual que aglutina sus características léxicas, sintácticas y semánticas en una unidad de información. Dicha unidad se emplea en tareas de búsqueda de respuestas superando así las limitaciones de los modelos basados en la co-ocurrencia de términos.
Stoyan Mihov & Klaus U. Schulz, 2004. Fast Approximate Search in Large Dictionaries. Journal of Computational Linguistics 30, 451–477. Association of Computational Linguistics.
El artículo trata sobre como realizar sistemas de recuperación de información sobre comparaciones aproximadas de cadenas de caracteres en vez de hacerlas exactas. Los autores se centran, sobretodo, en el uso de estas técnicas para construir una base de datos de entradas bibliográficas unificada en el dominio de electrónica, concretamente para obtener las afiliaciones de los autores. Para ello utilizan técnicas muy básicas de clustering y de distancia de edición.
El objeto del proyecto es analizar, experimentar y desarrollar tecnologías inteligentes, interactivas y multilingües de minería de textos, como pieza clave de la próxima generación de motores de búsqueda y análisis textual, sistemas capaces de encontrar “the need behind the query” (la necesidad que subyace a la consulta). Esta nueva generación ofrecerá servicios e interfaces especializadas según el dominio y el tipo de necesidad de información. Además, integrará búsqueda documental (páginas Web), búsqueda multimedia (imágenes, audio, video), búsqueda en información semiestructurada y búsqueda en dominios específicos. Los nuevos buscadores serán capaces de descubrir y organizar la información, y no sólo de producir listas ordenadas de páginas Web.