M3. Recuperación de información de la web heterogénea

Objetivos:

  • Identificar fuentes de información no estructurada y estructurada, relativas a las entidades digitales consideradas
  • Recuperar información no estructurada, incluyendo información de redes sociales
  • Recuperar información estructurada en datos abiertos y datos abiertos enlazados

Descripción del trabajo: Los objetivos del módulo marcan claramente que el trabajo estará orientado a la identificación de las fuentes de datos e información adecuadas relativas a las entidades que se estén considerando. Una vez definidos los orígenes de los datos, se desarrollarán los sistemas computacionales pertinentes para la adquisición de los mismos. Debe tenerse en cuenta, que los métodos que se desarrollen tendrán que tratar fuentes de información de la más variada naturaleza, con información estructurada y no estructurada, que además se encontrará albergada en documentos con distintos formatos. Las tareas que se llevarán a cabo durante este módulo son las siguientes:

T.3.1. Identificación de fuentes

La Web es un enorme repositorio de información no estructurada que no cesa de aumentar día tras día. Asimismo, el advenimiento de la Web 2.0 hizo que esa gran cantidad de información fuera aún mayor, dado que se daba la oportunidad a cualquier usuario de convertirse en productor de información.

Dentro de esa inmensidad de información, es preciso identificar las fuentes más relevantes para la entidad que se considere en cada momento. Si la entidad digital a construir es la relativa a una persona, los principales orígenes de los datos serán los sitios web donde la persona puede publicar información: redes sociales (Twitter, Facebook, MuchoCine, TripAdvisor...), foros o blogs. También habrá que prestar atención a los sitios web en donde se puede escribir sobre la entidad, como pueden ser diarios de noticias electrónicos, foros o blogs.

La web social se compone de multitud de servicios para la creación de comunidades de usuarios que permiten la colaboración y el intercambio de información entre los mismos. Las relaciones que se establecen dentro de estas comunidades determinan un grafo social donde se representan a los individuos como nodos y las relaciones como conexiones entre nodos. La caracterización del grafo social de una entidad digital puede aportar información muy relevante acerca de la misma. Es importante, por tanto, extraer estos grafos para completar nuestro modelo de entidad.

El concepto de datos enlazados (Linked Data) hace referencia a un método de publicar datos estructurados de manera que puedan ser enlazados entre ellos, mejorando su aprovechamiento a través de consultas semánticas. Para ello se utilizan tecnologías estándar de la Web, como las especificaciones HTTP, RDF y URIs, pero en lugar de utilizarlas para crear páginas web para ser consumidas (leídas) por humanos, las extienden para compartir información de forma que pueda ser procesada automáticamente por ordenadores. Esto permite que datos de diferentes fuentes puedan ser conectados y consultados.

Cuando los datos que se enlazan son de carácter abierto, es decir, su licencia de uso permite que puedan ser copiados y/o modificados por otros, se habla de datos enlazados abiertos. En la actualidad existen diferentes conjuntos de datos enlazados abiertos que pueden ser utilizados para conectar datos propios, enriqueciendo de esta manera su contenido. Estas son algunas de las iniciativas más destacadas en este área:

  • DBpedia: conjunto de datos que contiene información extraída de Wikipedia, incluyendo alrededor de 3,4 millones de conceptos en 11 idiomas diferentes.
  • GeoNames: proporciona descripciones en formato RDF de más de 7,5 millones de localizaciones geográficas de todo el mundo.
  • BabelNet: es una enciclopedia multilingüe basada en Wikipedia y WordNet que conecta conceptos y entidades nombradas mediante una red de relaciones semánticas con más de 13 millones de entradas.
  • FOAF (Friend of a Friend): es una ontología que describe personas, sus actividades y relaciones con otras personas y objetos.
  • YAGO (Yeat Another Great Ontology): es una base de conocimiento que combina información extraída de Wikipedia, WordNet y GeoNames. Está compuesta de más de 10 millones de entidades y 120 millones de hechos relacionados con estas entidades.
  • WikiData: Pretende convertirse en el repositorio de datos usado por Wikipedia, por lo que podría llegar a reemplazar a DBPedia en breve, especialmente por la precisión que se garantiza en dichos datos.

La presente tarea producirá como resultado un estudio e identificación de las fuentes de datos e información propicias para la generación de la entidad digital. Esta identificación incluye una selección de fuentes propias de la web social más adecuadas para los casos de uso planteados. Asimismo, se realizará un análisis para seleccionar las webs de datos abiertos. Se tratarán los formatos de datos estructurados más habituales, tales como CSV, XML, RSS, GeoRSS, PDF, TXT, RDF, etc. Resumiendo, en esta tarea se tendrá un catálogo con las fuentes de datos abiertos más adecuados para los escenarios planteados. Por último se generará un catálogo de orígenes de datos abiertos y datos enlazados abiertos.

T.3.2. Recuperación de información no estructurada

Tras la identificación de las fuentes de información, es preciso la obtención de la misma. Los crawlers son los sistemas informáticos especializados en la descarga iterativa de documentos presentes en la Web atendiendo a una serie de criterios preestablecidos.

De las distintas tipologías de crawlers que se encuentran definidas en la bibliografía, los orientados a una temática concreta son los que se ajustan a los objetivos del proyecto. Pero, los diversos orígenes de la información no estructurada van a requerir del desarrollo de crawlers adaptados a parte de ellos. La principal adaptación la van a exigir las plataformas propias de la web social, como son las redes sociales. La mayoría de ellas proporcionan APIs que facilitan la adquisición de los datos relacionados con su uso. Twitter, principal plataforma de microblogging, proporciona dos APIs (REST y STREAMING) que facilitan la descarga tanto de los mensajes como de la interacción de sus usuarios. LinkedIn, red social centrada en relaciones laborales, también proporciona una API, que será muy valiosa para el enriquecimiento de las entidades con otro tipo de interacción social, posiblemente, muy diferente a la que una entidad pueda presentar en Twitter.

La presente tarea producirá como resultado el desarrollo de crawlers centrados en una temática concreta y especializados en las distintas fuentes de información identificadas.

T.3.3. Recuperación de información estructurada en datos abiertos y en datos abiertos enlazados

El concepto de Datos Abiertos (Open Data) consiste en publicar los datos y la información de entidades privadas o públicas de forma abierta, regular y reutilizable para todo el mundo, sin restricciones de acceso, copyright, patentes u otros mecanismos de control. Esto permite poner a disposición de la sociedad el conjunto de datos e información que poseen las empresas y las administraciones públicas para fomentar la transparencia, la eficiencia, la participación y el desarrollo económico.

Tras la identificación de las fuentes de datos abiertos, es precisa la obtención de la información que contienen y para ello, esta tarea tendrá que desarrollar un crawler para descargar iterativamente los documentos presentes en la Web atendiendo a las propiedades de la entidad digital que se esté tratando. Este crawler permitirá un procesamiento e indexación de datos de diferentes fuentes y formatos de datos. Para ello se tendrá que analizar la estructura de la fuente de datos y decidir qué mecanismo es el mejor para ser aplicado. Además, el crawler tendrá que ser capaz de guardar sólo la información relevante de la entidad digital y desechar el resto de información para que su almacenamiento no sea excesivo. En esta tarea se aplicarán técnicas y herramientas de filtrado, extracción de información, resolución de ambigüedades, normalización, temporalidad, geolocalización, multilingualidad, etc.

El resultado de la tarea será el estudio y desarrollo de los sistemas de recuperación adaptados a cada una de las fuentes identificadas.