El objetivo principal del proyecto es la evaluación y desarrollo de sistemas de búsqueda de respuestas y recuperación de documentos en escenarios multilingües. Para ello se proponen dos líneas principales de actuación
El objetivo principal de este proyecto es construir tres corpus anotados sintácticamente (treebanks) para el español, catalán y euskera. Además de la anotación sintáctica, se realizará una anotación semántica mediante los synsets de los diferentes wordnets (http://www.cogsci.princeton.edu/~wn/w3wn.html) elaborados en cada lengua, así como una anotación de los elementos anafóricos y elípticos y la correferencia.
El objetivo general de este proyecto consiste en el desarrollo de técnicas de análisis de textos para su incorporación en sistemas de procesamiento de lenguaje natural aplicables a la resolución de problemas de recuperación de la información.
La actual Sociedad de la Información ha variado la forma en que se produce la interacción comunicativa entre los humanos. A diferencia de la comunicación convencional (prensa escrita, radio, o televisión), los nuevos instrumentos para la propagación de la información permiten que sus usuarios no sean sólo consumidores, sino también productores de sus propios mensajes. Estos nuevos mensajes se integran día a día en Internet conformando la llamada web 2.0, como la mayor plataforma comunicativa y colaborativa de la historia. Como consecuencia, se dispone de un gran volumen de información digital en el que se combinan múltiples lenguas (multilingualidad), formatos de representación (multimodalidad), y registros de uso con diferentes grados de ritualidad (formal/informal) y especialización, emitidos desde diferentes actitudes subjetivas y desde diferentes situaciones de espacio y tiempo que deben ser analizadas y comprendidas por sistemas inteligentes para su adecuada explotación por organizaciones y particulares.
El objeto del proyecto es analizar, experimentar y desarrollar tecnologías inteligentes, interactivas y multilingües de minería de textos, como pieza clave de la próxima generación de motores de búsqueda y análisis textual, sistemas capaces de encontrar “the need behind the query” (la necesidad que subyace a la consulta). Esta nueva generación ofrecerá servicios e interfaces especializadas según el dominio y el tipo de necesidad de información. Además, integrará búsqueda documental (páginas Web), búsqueda multimedia (imágenes, audio, video), búsqueda en información semiestructurada y búsqueda en dominios específicos. Los nuevos buscadores serán capaces de descubrir y organizar la información, y no sólo de producir listas ordenadas de páginas Web.