T.3.1. Identificación de fuentes

La Web es un enorme repositorio de información no estructurada que no cesa de aumentar día tras día. Asimismo, el advenimiento de la Web 2.0 hizo que esa gran cantidad de información fuera aún mayor, dado que se daba la oportunidad a cualquier usuario de convertirse en productor de información.

Dentro de esa inmensidad de información, es preciso identificar las fuentes más relevantes para la entidad que se considere en cada momento. Si la entidad digital a construir es la relativa a una persona, los principales orígenes de los datos serán los sitios web donde la persona puede publicar información: redes sociales (Twitter, Facebook, MuchoCine, TripAdvisor...), foros o blogs. También habrá que prestar atención a los sitios web en donde se puede escribir sobre la entidad, como pueden ser diarios de noticias electrónicos, foros o blogs.

La web social se compone de multitud de servicios para la creación de comunidades de usuarios que permiten la colaboración y el intercambio de información entre los mismos. Las relaciones que se establecen dentro de estas comunidades determinan un grafo social donde se representan a los individuos como nodos y las relaciones como conexiones entre nodos. La caracterización del grafo social de una entidad digital puede aportar información muy relevante acerca de la misma. Es importante, por tanto, extraer estos grafos para completar nuestro modelo de entidad.

El concepto de datos enlazados (Linked Data) hace referencia a un método de publicar datos estructurados de manera que puedan ser enlazados entre ellos, mejorando su aprovechamiento a través de consultas semánticas. Para ello se utilizan tecnologías estándar de la Web, como las especificaciones HTTP, RDF y URIs, pero en lugar de utilizarlas para crear páginas web para ser consumidas (leídas) por humanos, las extienden para compartir información de forma que pueda ser procesada automáticamente por ordenadores. Esto permite que datos de diferentes fuentes puedan ser conectados y consultados.

Cuando los datos que se enlazan son de carácter abierto, es decir, su licencia de uso permite que puedan ser copiados y/o modificados por otros, se habla de datos enlazados abiertos. En la actualidad existen diferentes conjuntos de datos enlazados abiertos que pueden ser utilizados para conectar datos propios, enriqueciendo de esta manera su contenido. Estas son algunas de las iniciativas más destacadas en este área:

  • DBpedia: conjunto de datos que contiene información extraída de Wikipedia, incluyendo alrededor de 3,4 millones de conceptos en 11 idiomas diferentes.
  • GeoNames: proporciona descripciones en formato RDF de más de 7,5 millones de localizaciones geográficas de todo el mundo.
  • BabelNet: es una enciclopedia multilingüe basada en Wikipedia y WordNet que conecta conceptos y entidades nombradas mediante una red de relaciones semánticas con más de 13 millones de entradas.
  • FOAF (Friend of a Friend): es una ontología que describe personas, sus actividades y relaciones con otras personas y objetos.
  • YAGO (Yeat Another Great Ontology): es una base de conocimiento que combina información extraída de Wikipedia, WordNet y GeoNames. Está compuesta de más de 10 millones de entidades y 120 millones de hechos relacionados con estas entidades.
  • WikiData: Pretende convertirse en el repositorio de datos usado por Wikipedia, por lo que podría llegar a reemplazar a DBPedia en breve, especialmente por la precisión que se garantiza en dichos datos.

La presente tarea producirá como resultado un estudio e identificación de las fuentes de datos e información propicias para la generación de la entidad digital. Esta identificación incluye una selección de fuentes propias de la web social más adecuadas para los casos de uso planteados. Asimismo, se realizará un análisis para seleccionar las webs de datos abiertos. Se tratarán los formatos de datos estructurados más habituales, tales como CSV, XML, RSS, GeoRSS, PDF, TXT, RDF, etc. Resumiendo, en esta tarea se tendrá un catálogo con las fuentes de datos abiertos más adecuados para los escenarios planteados. Por último se generará un catálogo de orígenes de datos abiertos y datos enlazados abiertos.