M4. Tratamiento inteligente de la información heterogénea en la web

Objetivos:

  • Analizar y adaptar los recursos, herramientas y técnicas ya existentes
  • Desarrollar nuevos recursos, herramientas y técnicas necesarios para nuestros sistemas
  • Detectar, identificar, extraer y monitorizar  temas y  entidades nombradas
  • Gestionar las entidades desde fuentes heterogéneas
  • Extraer rasgos lingüísticos, sociales y emocionales
  • Enriquecer las entidades digitales con datos emocionales, datos abiertos y datos enlazados

Descripción del trabajo: El objetivo principal de este módulo es el tratamiento inteligente de la información recuperada en el Módulo 3 mediante la integración de diferentes fuentes de datos heterogéneas, el filtrado, la extracción e indexación de la información relevante a la entidad digital, y todo ello independientemente del idioma que se esté tratando. Esto se realiza con el objetivo de enriquecer semánticamente a las entidades digitales identificadas. Para conseguir esto es necesario analizar, adaptar, aplicar técnicas, desarrollar recursos y herramientas que permitan un procesamiento e indexación de datos heterogéneos a partir de diferentes fuentes de datos (noticias, blogs, wikis, foros, opiniones, bases de datos distribuidas, RDF triples, e-mails y documentos internos). En este módulo se desarrollarán las siguientes tareas:

T.4.1 Análisis, adaptación y desarrollo de recursos, herramientas y técnicas  

Esta tarea consiste inicialmente en analizar recursos, herramientas y técnicas ya existentes para seleccionar aquello que se pueda integrar en nuestros modelos para que sean capaces de gestionar perfiles de entidades asociando sus características.

Posteriormente, todos los recursos, técnicas y herramientas seleccionadas previamente se adaptarán a nuestros requisitos particulares, dominios e idiomas concretos, ya que no podrían ser utilizados directamente. Por ejemplo, la integración y adaptación de lexicones ya existentes será un área prioritaria para ajustar nuestros sistemas.

Finalmente, habrá que desarrollar y generar recursos, herramientas y técnicas propios en aquellas situaciones que lo requieran. Por ejemplo, la generación de corpora específicos para un dominio particular y en uno o varios idiomas será una tarea básica a acometer. Además, la generación e implementación de crawlers deberán estudiarse en paralelo.

T.4.2 Seguimiento y Detección de temas

En esta tarea se monitorizarán las fuentes de información, por ejemplo prensa o una cuenta en Twitter, y se analizarán los textos para determinar los distintos hilos temáticos que tienen lugar, discriminando la información por temas (detección) y siendo capaz de establecer una línea temporal que posibilite analizar su evolución a lo largo del tiempo, ya que la difusión de los temas son de interés en diversos ámbitos (difusión de emergencias, detección de temas de actualidad o propagación viral de información).

El proceso de detección de temas es complejo, como por ejemplo en textos de micro-blogging con muy poca información pero que pertenecen a un tema dado a partir del hilo de una conversación o a la temática de temas anteriores. Esto plantea nuevos retos, pues la detección del tema va más allá del ámbito del texto a analizar, considerando el “ruido social” o la línea temática en desarrollo por un usuario determinado.

T.4.3 Seguimiento y Detección de entidades nombradas

La detección de entidades nombradas y su seguimiento a lo largo del tiempo se convierte en otra de las partes cruciales de este proyecto puesto que constituye una de las fuentes prioritarias de información para la caracterización de las entidades digitales.

Desde los documentos digitales recuperados en el módulo anterior será necesario aplicar técnicas de filtrado y clustering de textos y pasajes para asegurar el contexto en el que se desenvuelve la entidad. A continuación se aplicarán diferentes técnicas de extracción de información que identifiquen de manera unívoca y sin ambigüedad a la entidad y sus características más relevantes, permitiendo clasificar la entidad en algún tipo determinado en función de la información extraída. De este modo se podrán diferenciar entidades que comparten la misma identificación (nombre) pero son de distinto tipo (persona u organización, por ejemplo). Además, con el fin de mantener sus ámbitos históricos y geográficos, será necesario contar con herramientas de detección y normalización de la información temporal y de geolocalización, permitiendo asociar la información extraída y su contexto al espacio y tiempo en el que se desenvuelven.

T.4.4. Gestión de entidades desde fuentes heterogéneas

En esta tarea, mediante las técnicas de TLH, se identificarán y extraerán las diferentes menciones a eventos o hechos externos que aparecen en diferentes tipos de textos. En concreto, se adaptará la herramienta TIP-Sem (desarrollada en proyectos anteriores por el Grupo de Procesamiento del Lenguaje de la Universidad de Alicante) para trabajar sobre fuentes heterogéneas de información. Esta herramienta permite, entre otras cosas, identificar las menciones a eventos y el momento temporal en que dichos eventos se producen.

Un problema importante al trabajar con fuentes heterogéneas es que se trate de un mismo evento en diferentes fuentes de maneras diversas. Dos expresiones lingüísticas distintas que se refieren a un mismo evento se consideran correferenciales. Es necesario, por ello, un método de resolución de correferencia de eventos, de tal manera que se pueda detectar cuándo se hace referencia al mismo evento, independientemente de la fuente o la expresión lingüística utilizada. Además, aprovechando la información temporal asociada a cada evento, se podrán ordenar los eventos en una línea del tiempo.

T.4.5. Extractor de rasgos lingüísticos

Si bien el conjunto de propiedades de una entidad digital viene en gran parte determinado por la aplicación sobre la que dicha entidad será utilizada, podemos establecer una serie de propiedades comunes fruto del análisis lingüístico del contenido textual relacionado, para determinar esos rasgos lingüísticos que pueden incluso modelar el pensamiento de un individuo.

Las propiedades básicas a identificar son uno de los resultados propios de esta investigación, si bien algunas de las candidatas son:

  • Los temas de los que tratan los textos, obtenidos mediante técnicas de modelado de temas. Este rasgo nos permitiría conocer, mediante palabras clave, los temas objeto de interés por la entidad en un momento dado.
  • El modelo del lenguaje del usuario, generado a partir de algoritmos estadísticos, que calculan la distribución de probabilidad del vocabulario relacionado con la entidad. Gracias a estos modelos podemos facilitar tareas como la desambiguación, detección de autoría, etc. y nos sirven como aproximación estadística a la gramática subyacente del usuario.
  • Los vectores de palabras son un modelo en el análisis de textos para tareas de agrupamiento, construcción de tesauros, lógica natural, búsqueda de sinónimos, análisis de analogía o análisis de sentimientos.

T.4.6. Enriquecimiento semántico

Aunque las herramientas y recursos desarrollados en este proyecto utilizarán técnicas independientes de la lengua, se propone en este proyecto el uso de ontologías con el fin de mejorar la precisión y la cobertura global. En esta tarea, se hará el enriquecimiento a partir de los datos abiertos y enlazados tratados en las tareas de este proyecto. En concreto realizaremos las siguientes acciones:

  • Diseño de la estructura de la ontología. El objetivo de esta tarea es el diseño de una estructura de la ontología multilingüe en la que se incluye toda la información dependiente del idioma.
  • Poblar la Ontología. Clasificadores humanos, utilizando herramientas semiautomáticas, poblarán las ontologías en los dominios especificados. Para lograr el objetivo de esta tarea, la siguiente subtarea se llevará a cabo:
    • Construir una interfaz de usuario para rellenar la ontología. Para facilitar las poblaciones ontología es necesario suministrar a los expertos una interfaz de usuario inteligente.
    • Insertar instancias de base manualmente en ontologías a través de la interfaz de usuario integrada. A través de las interfaces de usuario, los expertos insertarán datos en las ontologías específicas para cada dominio.
    • Elaborar y aplicar métodos semiautomáticos para continuar poblando las ontologías. A partir de los interfaces de usuario y el conocimiento base añadido en las ontologías, nuevos métodos de inferencia se aplicarán para poblar ontologías.
    • Filtrar los datos erróneos adquiridos por el usuario, a través de la interfaz de usuario. Diseñar mecanismos para descubrir y eliminar automáticamente los datos erróneos  en las ontologías.

Resumiendo, esta tarea mejorará y enriquecerá a las entidades digitales creadas en las tareas anteriores mediante la aplicación de las acciones detalladas.