T.4.3 Seguimiento y Detección de entidades nombradas

La detección de entidades nombradas y su seguimiento a lo largo del tiempo se convierte en otra de las partes cruciales de este proyecto puesto que constituye una de las fuentes prioritarias de información para la caracterización de las entidades digitales.

Desde los documentos digitales recuperados en el módulo anterior será necesario aplicar técnicas de filtrado y clustering de textos y pasajes para asegurar el contexto en el que se desenvuelve la entidad. A continuación se aplicarán diferentes técnicas de extracción de información que identifiquen de manera unívoca y sin ambigüedad a la entidad y sus características más relevantes, permitiendo clasificar la entidad en algún tipo determinado en función de la información extraída. De este modo se podrán diferenciar entidades que comparten la misma identificación (nombre) pero son de distinto tipo (persona u organización, por ejemplo). Además, con el fin de mantener sus ámbitos históricos y geográficos, será necesario contar con herramientas de detección y normalización de la información temporal y de geolocalización, permitiendo asociar la información extraída y su contexto al espacio y tiempo en el que se desenvuelven.