T.3.3. Recuperación de información estructurada en datos abiertos y en datos abiertos enlazados

El concepto de Datos Abiertos (Open Data) consiste en publicar los datos y la información de entidades privadas o públicas de forma abierta, regular y reutilizable para todo el mundo, sin restricciones de acceso, copyright, patentes u otros mecanismos de control. Esto permite poner a disposición de la sociedad el conjunto de datos e información que poseen las empresas y las administraciones públicas para fomentar la transparencia, la eficiencia, la participación y el desarrollo económico.

Tras la identificación de las fuentes de datos abiertos, es precisa la obtención de la información que contienen y para ello, esta tarea tendrá que desarrollar un crawler para descargar iterativamente los documentos presentes en la Web atendiendo a las propiedades de la entidad digital que se esté tratando. Este crawler permitirá un procesamiento e indexación de datos de diferentes fuentes y formatos de datos. Para ello se tendrá que analizar la estructura de la fuente de datos y decidir qué mecanismo es el mejor para ser aplicado. Además, el crawler tendrá que ser capaz de guardar sólo la información relevante de la entidad digital y desechar el resto de información para que su almacenamiento no sea excesivo. En esta tarea se aplicarán técnicas y herramientas de filtrado, extracción de información, resolución de ambigüedades, normalización, temporalidad, geolocalización, multilingualidad, etc.

El resultado de la tarea será el estudio y desarrollo de los sistemas de recuperación adaptados a cada una de las fuentes identificadas.