T.4.4. Gestión de entidades desde fuentes heterogéneas

En esta tarea, mediante las técnicas de TLH, se identificarán y extraerán las diferentes menciones a eventos o hechos externos que aparecen en diferentes tipos de textos. En concreto, se adaptará la herramienta TIP-Sem (desarrollada en proyectos anteriores por el Grupo de Procesamiento del Lenguaje de la Universidad de Alicante) para trabajar sobre fuentes heterogéneas de información. Esta herramienta permite, entre otras cosas, identificar las menciones a eventos y el momento temporal en que dichos eventos se producen.

Un problema importante al trabajar con fuentes heterogéneas es que se trate de un mismo evento en diferentes fuentes de maneras diversas. Dos expresiones lingüísticas distintas que se refieren a un mismo evento se consideran correferenciales. Es necesario, por ello, un método de resolución de correferencia de eventos, de tal manera que se pueda detectar cuándo se hace referencia al mismo evento, independientemente de la fuente o la expresión lingüística utilizada. Además, aprovechando la información temporal asociada a cada evento, se podrán ordenar los eventos en una línea del tiempo.