Agradecimientos

El proyecto REDES (Reconocimiento de Entidades Digitales: Enriquecimiento y Seguimiento mediante Tecnologías del Lenguaje) con referencia a sus subproyectos TIN2015-65136-C2-1-R, TIN2015-65136-C2-2-R, está parcialmente financiado por la Universidad de Alicante, Universidad de Jaen y el gobierno de España a través del programa Programa Estatal de I+D+i Orientada a los Retos de la Sociedad (Proyectos I+D+i 2015) del Ministerio de Economía, Industria y Competitividad.

Acknowledgements

The REDES project (Reconocimiento de Entidades Digitales: Enriquecimiento y Seguimiento mediante Tecnologías del Lenguaje) with reference to its subprojects TIN2015-65136-C2-1-R, TIN2015-65136-C2-2-R, is partially funded by the University of Alicante, University of Jaen and the Spanish Government through the program National Programme for Research Aimed at the Challenges of Society (Projects I+D+i 2015) of the Ministry of Economy, Industry and Competitiveness.

T.3.2. Recuperación de información no estructurada

Tras la identificación de las fuentes de información, es preciso la obtención de la misma. Los crawlers son los sistemas informáticos especializados en la descarga iterativa de documentos presentes en la Web atendiendo a una serie de criterios preestablecidos.

De las distintas tipologías de crawlers que se encuentran definidas en la bibliografía, los orientados a una temática concreta son los que se ajustan a los objetivos del proyecto. Pero, los diversos orígenes de la información no estructurada van a requerir del desarrollo de crawlers adaptados a parte de ellos. La principal adaptación la van a exigir las plataformas propias de la web social, como son las redes sociales. La mayoría de ellas proporcionan APIs que facilitan la adquisición de los datos relacionados con su uso. Twitter, principal plataforma de microblogging, proporciona dos APIs (REST y STREAMING) que facilitan la descarga tanto de los mensajes como de la interacción de sus usuarios. LinkedIn, red social centrada en relaciones laborales, también proporciona una API, que será muy valiosa para el enriquecimiento de las entidades con otro tipo de interacción social, posiblemente, muy diferente a la que una entidad pueda presentar en Twitter.

La presente tarea producirá como resultado el desarrollo de crawlers centrados en una temática concreta y especializados en las distintas fuentes de información identificadas.

Módulo:

M3. Recuperación de información de la web heterogénea

Inicio de sesión

Agradecimientos

Acknowledgements

T.3.2. Recuperación de información no estructurada