Agradecimientos

El proyecto REDES (Reconocimiento de Entidades Digitales: Enriquecimiento y Seguimiento mediante Tecnologías del Lenguaje) con referencia a sus subproyectos TIN2015-65136-C2-1-R, TIN2015-65136-C2-2-R, está parcialmente financiado por la Universidad de Alicante, Universidad de Jaen y el gobierno de España a través del programa Programa Estatal de I+D+i Orientada a los Retos de la Sociedad (Proyectos I+D+i 2015) del Ministerio de Economía, Industria y Competitividad.

Acknowledgements

The REDES project (Reconocimiento de Entidades Digitales: Enriquecimiento y Seguimiento mediante Tecnologías del Lenguaje) with reference to its subprojects TIN2015-65136-C2-1-R, TIN2015-65136-C2-2-R, is partially funded by the University of Alicante, University of Jaen and the Spanish Government through the program National Programme for Research Aimed at the Challenges of Society (Projects I+D+i 2015) of the Ministry of Economy, Industry and Competitiveness.

T.3.3. Recuperación de información estructurada en datos abiertos y en datos abiertos enlazados

El concepto de Datos Abiertos (Open Data) consiste en publicar los datos y la información de entidades privadas o públicas de forma abierta, regular y reutilizable para todo el mundo, sin restricciones de acceso, copyright, patentes u otros mecanismos de control. Esto permite poner a disposición de la sociedad el conjunto de datos e información que poseen las empresas y las administraciones públicas para fomentar la transparencia, la eficiencia, la participación y el desarrollo económico.

Tras la identificación de las fuentes de datos abiertos, es precisa la obtención de la información que contienen y para ello, esta tarea tendrá que desarrollar un crawler para descargar iterativamente los documentos presentes en la Web atendiendo a las propiedades de la entidad digital que se esté tratando. Este crawler permitirá un procesamiento e indexación de datos de diferentes fuentes y formatos de datos. Para ello se tendrá que analizar la estructura de la fuente de datos y decidir qué mecanismo es el mejor para ser aplicado. Además, el crawler tendrá que ser capaz de guardar sólo la información relevante de la entidad digital y desechar el resto de información para que su almacenamiento no sea excesivo. En esta tarea se aplicarán técnicas y herramientas de filtrado, extracción de información, resolución de ambigüedades, normalización, temporalidad, geolocalización, multilingualidad, etc.

El resultado de la tarea será el estudio y desarrollo de los sistemas de recuperación adaptados a cada una de las fuentes identificadas.

Módulo:

M3. Recuperación de información de la web heterogénea

Inicio de sesión

Agradecimientos

Acknowledgements

T.3.3. Recuperación de información estructurada en datos abiertos y en datos abiertos enlazados