T.3.2. Recuperación de información no estructurada

Tras la identificación de las fuentes de información, es preciso la obtención de la misma. Los crawlers son los sistemas informáticos especializados en la descarga iterativa de documentos presentes en la Web atendiendo a una serie de criterios preestablecidos.

De las distintas tipologías de crawlers que se encuentran definidas en la bibliografía, los orientados a una temática concreta son los que se ajustan a los objetivos del proyecto. Pero, los diversos orígenes de la información no estructurada van a requerir del desarrollo de crawlers adaptados a parte de ellos. La principal adaptación la van a exigir las plataformas propias de la web social, como son las redes sociales. La mayoría de ellas proporcionan APIs que facilitan la adquisición de los datos relacionados con su uso. Twitter, principal plataforma de microblogging, proporciona dos APIs (REST y STREAMING) que facilitan la descarga tanto de los mensajes como de la interacción de sus usuarios. LinkedIn, red social centrada en relaciones laborales, también proporciona una API, que será muy valiosa para el enriquecimiento de las entidades con otro tipo de interacción social, posiblemente, muy diferente a la que una entidad pueda presentar en Twitter.

La presente tarea producirá como resultado el desarrollo de crawlers centrados en una temática concreta y especializados en las distintas fuentes de información identificadas.