Actividad CLH.HERR: Herramientas

Responsable de actividad: 
Estela Saquete

Esta actividad se centrará en el desarrollo de las herramientas necesarias para construir y dotar de contenido a los L-Bricks. Dependiendo de la aplicación que queramos darle a nuestros componentes básicos, necesitaremos de diferentes herramientas que permitan detectar y enriquecer la información que almacenaremos.

Los retos principales del proyecto se centran en la capa semántica del lenguaje, por lo que serán necesarias herramientas que trabajan en este nivel. Entre las herramientas más significativas están aquellas que afrontan la desambiguación del sentido de las palabras, la detección de roles semánticos, el tratamiento de la implicación textual, la detección de entidades nombradas, la detección de información temporal y espacial, el análisis de sentimientos y la extracción de información.

No obstante, también será necesario otro tipo de herramientas que trabajen a nivel léxico y sintáctico para la detección de componentes básicos del lenguaje que alimenten a los distintos algoritmos que sirven de base al análisis semántico. En este sentido resulta necesario incluir herramientas como los detectores de oraciones, sintagmas y palabras. Dependiendo de la aproximación que vayamos a desarrollar, podríamos necesitar adaptar o crear otro tipo de analizadores para enriquecer la información almacenada en los L-Bricks y que pueda servir para, por ejemplo, suavizar modelos de aprendizaje automático en dominios donde las muestras no sean suficientes, ayudar a la desambiguación o contextualizar la información. Estas herramientas pueden ser analizadores de partes de la oración, generadores de árboles sintácticos, agrupadores o clasificadores de documentos relacionados, etc.

Por último, serán necesarios sistemas de recuperación y extracción de información que den soporte a la construcción de los distintos recursos o para el enriquecimiento de la información mediante aportaciones desde diversas y heterogéneas fuentes como enciclopedias on-line, bases de datos, corpus o webs especializadas. Este tipo de información nos servirá, durante la generación del lenguaje, para añadir información adicional que no estuviera presente durante el análisis.


Hito: Obtención, implementación e integración del conjunto de herramientas necesarias para las tareas de comprensión del lenguaje