La Recuperación de Información aborda la búsqueda de textos, documentos e, incluso, archivos multimedia sobre gandes volúmenes de información para filtrar la información relevante para el usuario de la que no. Esto permite acceder a la información rápidamente eliminando la información no interesante. En el GPLSI desarrollamos motores de búsquedas que acceden a donde otros no pueden alcanzar y los personalizamos a las necesidades del usuario hasta donde permite la tecnología actual.
Nuestros sistemas de Recuperación de Información son capaces de tratar con colecciones de documentos que puedan estar almacenados en algún soporte físico o rastrear Internet para obtener la información. Además, no sólo nos basamos en información no estructurada como los textos sino también en metadatos que describen los documentos, bases de datos, imágenes, sonido, vídeo o datos de otras características.
La Recuperación de Información cubre tantas disciplinas que eso genera normalmente un conocimiento parcial desde tan solo una u otra perspectiva. Algunas de estas disciplinas son la psicología cognitiva, la arquitectura de la información, diseño de la información, el comportamiento humano hacia la información, la lingüística, la semiótica, informática, biblioteconomía, documentación e incluso la visión artificial.
La información multimodal es aquella en la que interviene diferentes modos de comunicación humana como por ejemplo texto, sonido e imagen. La gran variedad de formatos digitales existentes en la red y el boom de los contenidos multimedia, han hecho necesario desarrollar y/o adaptar herramientas de búsqueda de información a las características de estos nuevos formatos como son el vídeo y la imagen entre otros.
Actualmente los buscadores comerciales de contenidos multimedia, como los bien conocidos Youtube o Flickr, basan las búsquedas sólo en el texto que acompaña a la imagen o al video. El desarrollo de este tipo de herramientas está dentro del área de investigación de la Recuperación de Información Visual. Este campo es un área específica dentro de la Recuperación de Información la cual se ha utilizado, desde finales de los años 70, sin ninguna adaptación especifica para llevar a cabo búsquedas utilizando las anotaciones que acompañan a las imágenes o vídeos. Más tarde, a principios de los años 90, en un intento de superar la dependencia de estos sistemas en la existencia de anotaciones textuales, surgieron los sistemas de Recuperación de Información Visual Basados en el Contenido de la Imagen que reconocen diferentes objetos o características de la imagen.
Finalmente, en los últimos años, a medida que las tecnologías utilizadas han ido madurando, un tercer enfoque para afrontar el problema ha surgido, se trata de los sistemas que combinan tecnologías basadas en texto y en imagen. En este contexto los esfuerzos se centran en encontrar metodos adecuados para la combinación multimodad de fuentes de información muy distintas.
Por otro lado, hay que tener en cuenta que los buscadores, Google por ejemplo, son una de las aplicaciones más populares de la recuperación de información, pero la recuperación de la información no sólo busca y ofrece documentos relacionados con ciertas palabras clave, se puede especializar en función del uso de la información recuperada o del objetivo de la búsqueda.
Aunque populares, los buscadores no son herramientas perfectas, aún queda mucho camino por andar. La ingente cantidad de documentos presentes en la red provoca grandes problemas de gestión, al tiempo que los resultados no siempre son satisfactorios por incompletos o irrelevantes. Se echa en falta, por ejemplo, una carga semántica no presente en la Web actual que nos permita reducir la cantidad de resultados obtenidos en una búsqueda, o la especialización en dominios restringidos que ayuden a una búsqueda más eficiente y eficaz.
A veces, no se desea simplemente un conjunto de documentos relacionados con nuestro interés sino la extracción de información concreta para, por ejemplo, almacenarla en bases de datos, o tan sólo queremos la respuesta a una pregunta. Para estos dos objetivos se han planteado dos tareas del Procesamiento del Lenguaje Natural en las que se están centrando gran cantidad de recursos humanos y técnicos: la extracción de información y la respuesta a preguntas.