Descripción

El proyecto REDES (Reconocimiento de Entidades Digitales: Enriquecimiento y Seguimiento, Ref TIN2015-65136-C2-2-R) se basa en la idea de representar de forma amplia una entidad real (personas, empresas, productos…) en el mundo digital, para su seguimiento y análisis desde cualquier perspectiva. La detección y generación de perfiles de entidades digitales, así como su enriquecimiento semántico a través de las distintas fuentes heterogéneas, supondrá un avance significativo en los nuevos sistemas de información basados en TLH, como los sistemas avanzados de análisis y de sentimiento, de toma de decisiones o de recomendación.

El perfil digital de una entidad debe incluir todo tipo de información extraída de diferentes fuentes. Esto implica integrar el conocimiento externo, así como describir un modelo basado en el lenguaje, para una comprensión global de la presencia de dicha entidad en Internet. Dado el volumen de información que se genera diariamente, ya no es suficiente con tomar aisladamente los datos de la web social, sino que es necesario integrarlos con todas las posibles fuentes de información, como pueden ser los crecientes datos abiertos enlazados.

A pesar de que en los últimos años están apareciendo sistemas que intentan extraer y analizar la información de la web social, no se está teniendo en cuenta el potencial existente en las conexiones con otras fuentes de datos antiguas y nuevas. Así pues, en este proyecto se propone el diseño y desarrollo de un sistema que defina y genere entidades digitales y que sea capaz de enriquecerlas semánticamente con el fin de generar extensas pero depuradas bases de conocimiento que estarán a disposición de la comunidad científica para continuar explorando todo el potencial de la propuesta. Además, el protagonismo que el modelado del lenguaje tiene en la perfilación de una entidad cobra en este proyecto un destacado papel, como base para el análisis de la información relacionada con dicha entidad.

El objetivo principal de este proyecto consiste en desarrollar una plataforma en la que se integren las distintas técnicas, recursos y herramientas de TLH con el objetivo de implementar sistemas capaces de definir y crear perfiles de entidades digitales. Estas entidades digitales incluirán no solo las características básicas sino también sus rasgos lingüísticos y sociales, utilizando e integrando todas las fuentes de información disponibles. Concretamente haremos uso de tres tipos de fuentes disponibles en la Web:

  1. Fuentes de datos no estructuradas: principalmente las relativas a la Web Social (blogs, microblogs, comentarios, foros y redes sociales), aunque también desde fuentes formales como periódicos y portales de noticias. Se produce aquí un intenso proceso de análisis de texto para la extracción de la información.
  2. Fuentes de datos estructuradas: en formato digital, pero sin estructura semántica (ontológica), como pueden ser bases de datos públicas y portales de transparencia con datos abiertos
  3. Fuentes de datos abiertos enlazados: para la extracción de información de fuentes semánticas, con ontologías definidas y sobre las que hemos llegado a un acuerdo ontológico en el mapeado de sus datos (aserciones) sobre el esquema ontológico definido en nuestro sistema.

A partir de este magma de información, y mediante el diseño y desarrollo de herramientas y técnicas basadas en TLH, se definirán y generarán entidades digitales entendidas como una estructura de información semántica donde se integran todos estos datos, con especial atención a las dimensiones espacial (ubicación geográfica de la entidad) y temporal (variación de los datos que conforman la entidad a lo largo del tiempo). Ejemplos representativos de los tipos de datos extraídos son:

  • Datos específicos básicos: nombre, apellidos, lugar de trabajo, fecha de nacimiento, lugar de nacimiento, profesión, temas en los que es experto...
  • Rasgos lingüísticos de la entidad (vocabulario, modelo del lenguaje, red neuronal profunda para modelado de conocimiento, entre otros). De esta manera somos capaces de caracterizar, por ejemplo, a una persona en base a la forma en que escribe y sobre lo que escribe.
  • Rasgos sociales: referidos a todos los indicadores sociométricos de la red social o redes sociales en las que la entidad se inserta (densidad, centralidad, cliques, agrupamientos, intermediación, etc.)
  • Datos enriquecidos mediante conexión con datos abiertos y datos abiertos enlazados: indicadores socio-económicos de su contexto geográfico, meteorología en el lugar donde tiene lugar una publicación, conexión con otras entidades, enriquecimiento semántico de los temas detectados y todos aquellos datos precisos que definen el contexto en el que se ubica una entidad.

Una vez definida la entidad digital será publicada también en la red de datos abiertos enlazados para permitir su uso por terceros mediante un end-point o punto final de acceso, que posibilitará que la comunidad pueda desarrollar nuevas aplicaciones en base a estas entidades digitales. Entendemos que la riqueza semántica de esto perfiles y su explotación van más allá de los escenarios que serán planteados en este proyecto como prueba de concepto. Es por ello que no puede ser de otra manera y sumemos a la gran red de datos abiertos enlazados la información generada.

A modo de resumen, y con el fin de centrar el proyecto, responderemos a tres preguntas clave: qué, para qué y cómo.

  • Qué pretende el proyecto: representar entidades reales mediante el modelado de entidades digitales basadas en rasgos del lenguaje, rasgos sociales y datos estructurados relacionados.
  • Para qué acometer el proyecto: para disponer de bases de conocimiento sobre entidades reales que permitan su seguimiento y análisis en la web.
  • Cómo se implementará el proyecto: Mediante el tratamiento e integración de información heterogénea en la web social, la web de datos y su enriquecimiento semántico utilizando datos enlazados abiertos. Para ello se desarrollarán e integrarán tecnologías, recursos y herramientas de TLH, propias y ajenas, innovadoras.

 

OBJETIVOS ESPECÍFICOS

El presente proyecto implica una serie de retos y objetivos específicos del proyecto global en el ámbito de la investigación de las Tecnologías del Lenguaje Humano (TLH) que se detallan a continuación:

  • Definir entidades digitales: La definición de entidades digitales supone la determinación de un constructor que represente de una manera genérica a una entidad del mundo real. La entidad digital no sólo estará compuesta por datos presentes en Internet, sino también por información elaborada a partir de los datos que se identifiquen en la Red sobre dicha entidad.
  • Procesar información heterogénea procedente de la web y web social: La web social, surgida de la transformación que supuso la Web 2.0, ha generado nuevos tipos de datos relacionados con la interacción entre personas y entes en la Red. El objetivo se centra en mejorar la adquisición y producción de información a partir de datos no estructurados de la web, en general, así como su combinación con la información procedente de las relaciones de las entidades presentes en los datos no estructurados de la web social.
  • Procesar información heterogénea procedente de la web de datos: La reutilización de información procedente de fuentes de datos abiertos y fuentes de datos abiertos enlazados supone un nuevo reto que proporcionará un salto cualitativo en cuanto a la generación de información y conocimiento. Para ello es necesario el desarrollo de nuevas metodologías, técnicas y recursos que permitan la correcta extracción de los datos procedentes desde las diferentes fuentes de la web de datos (web 3.0) para su posterior  integración con el resto de datos disponibles.
  • Enriquecer semánticamente las entidades digitales: La combinación de la información y conocimiento derivados de los objetivos OBJ2 y OBJ3 procedentes de la web, la web social y la web de datos debe formalizarse en la entidad digital mediante diferentes técnicas de homogeneización de dicha información  y conocimiento.
  • Monitorizar en el tiempo y en el espacio las entidades digitales: La información que caracteriza a una entidad digital es susceptible de ser modificada por la acción del contexto temporal y espacial en el que se desarrolla. La recuperación, extracción y normalización de la información temporal y espacial que acompaña a las propiedades de la entidad permitirá contextualizar el conocimiento de manera dinámica mediante su evolución a lo largo del tiempo o situándose en áreas geográficas diferentes.
  • Integrar la información generada en el modelo de entidad digital: La definición, implantación y evaluación del modelo de integración del conocimiento junto con la plataforma que recoge todas las herramientas, técnicas y recursos enumerados anteriormente será otro de los grandes retos a abordar por el proyecto.