M5. Implementación del modelo de integración de entidades digitales

Objetivos:

  • Definir el modelo de integración de entidades digitales
  • Implementar las herramientas para la integración del modelo  
  • Evaluar el modelo de integración

Descripción del trabajo: Durante el módulo 5 se implementará la arquitectura que se describe a continuación y que permitirá la gestión y seguimiento de entidades digitales:

 

Modelo de integración de entidades digitales

 

El diagrama anterior refleja la arquitectura global del sistema, que debe interpretarse como un modelo de se construye de abajo a arriba. Pasamos a detallar cada uno de los bloques así como la interacción entre ellos:

  • Entidad (semilla): son los datos de los que partimos para construir una entidad digital. Puede ser un nombre, una cuenta en una red social o un conjunto de datos conocidos.
  • Datos concretos: son los datos concretos que conocemos de la entidad
  • Presencia en la web social: son los perfiles que sobre esa entidad sabemos que existen en las redes sociales. Estos tres primeros bloques son los datos de partida en el proceso de construcción de una entidad digital.
  • Buscador de información: este módulo toma como entrada los datos concretos conocidos de la entidad y realiza un proceso de búsqueda de información por la web. Este proceso implica tanto la recuperación de información no estructurada (textos) como el filtrado y extracción de los textos.
  • Buscador de datos: procede a una búsqueda de información sobre datos estructurados, ya sean bases de datos abiertos o procedentes de la web semántica (bases de conocimiento en la web de datos enlazados).
  • Extractor de redes sociales: genera un grafo de relaciones con otras entidades para su posterior análisis a partir de la información en la web social (comunidades y redes sociales).
  • Detección de entidades: mediante un proceso de detección de entidades podemos obtener datos concretos a partir de la información no estructurada. Estos datos también alimentan el buscador de datos.
  • Extracción de rasgos lingüísticos: en este proceso se generan, a partir de los textos, los rasgos lingüísticos que se estimen relevantes, como puede ser calcular el modelo de lenguaje, los vectores de palabras, el modelado de temas, etc.
  • Normalizador de datos: toma todos los datos encontrados y normaliza (formatea) su representación.
  • Analizador sociométrico: este proceso calcula las medidas sociométricas que se estimen oportunas acerca de la entidad en su grafo social: centralidad, densidad, agrupamiento, etc.
  • Conector ontológico: a partir de toda la información generada, este módulo añade los metadatos correspondientes y genera las propiedades acorde a la ontología definida (tomando como base la ontología núcleo). Así las propiedades ya pueden relacionarse con un nodo vacío contenedor que representa a la entidad digital final. Este módulo también es responsable de mantener el acuerdo ontológico (coherencia) entre todas las entidades generadas por el sistema.

Para implementar esta arquitectura se llevarán a cabo las siguientes tareas:

T.5.1. Definición y desarrollo del generador de entidades digitales

En esta tarea se desarrollará el sistema de almacenamiento y consulta de entidades digitales y para ello se implementará un generador de entidades y se gestionará el almacén de ternas.

Adicionalmente, cada entidad digital generada con todas sus propiedades es almacenada en un almacén de ternas, como puede ser Virtuoso Openlink, que facilite una gestión adecuada de las entidades así como la posibilidad de acceder a ellas a través de un punto final (endpoint) SPARQL.

T.5.2. Pruebas y demostración

Para probar nuestro sistema se implementarán dos escenarios diferentes. Para cada uno de ellos se realizará una recopilación de datos y se probará el sistema mediante el seguimiento de las entidades digitales detectadas en el escenario.