Actividad CLH.RECS: Recursos

Responsable de actividad: 
Mayte Roma

Las diferentes herramientas necesarias para la construcción de L-Bricks requieren de recursos que les proporcionen la información necesaria para su correcto funcionamiento. Esta información lingüística puede ser variada, desde estructuras léxicas hasta unidades y rasgos semánticos y/o pragmáticos.

Podemos dividir estos recursos en dos tipos: recursos sistémicos, que representan las lenguas como sistema abstracto de signos (diccionarios, léxicos y ontologías) y recursos contextuales, que representan las lenguas en su contexto de uso concreto (corpus lingüísticos). Todos ellos aglutinan la información necesaria sobre el dominio de trabajo.

Hay dos formas de afrontar la tarea de obtención de recursos. La primera de ellas es hacerlo de forma manual, utilizando el conocimiento de expertos del dominio para recopilar y etiquetar corpus, ontologías y diccionarios que den soporte a las herramientas lingüísticas utilizadas. Estos recursos adquieren el nivel de calidad de los expertos que los han desarrollado, pero por contra tienden a ofrecer una cobertura reducida y restringida a pequeños dominios debido a su alto coste de desarrollo. La segunda forma de afrontar la tarea es capturar la información de forma automática, generalmente aprovechando la Web como corpus. La calidad de estos recursos recuperados de forma automática suele ser inferior a aquella obtenida a partir de expertos, pero a cambio se consigue una cobertura muy superior debido a la infinidad de información que se puede encontrar hoy en día en formato digital.

En esta tarea se proponen dos acciones concretas. La primera consistirá en el análisis detallado de los principales recursos existentes en TLH y determinación de su viabilidad como fuente de información para la generación de los L-Bricks. La segunda consistirá en adaptar o desarrollar aquellos recursos para los que no exista un equivalente que satisfaga las necesidades planteadas por el proyecto. En este caso se plantea seguir una aproximación automática o semi-automática a la obtención de recursos. Se  hará uso de sistemas de recuperación de información y arañas web (crawler) que permitan capturar contenidos multilingües de la red (tanto semántico como pragmático y conceptual) con distinto grado de formalidad (redes sociales, noticias, textos literarios, etc.) y de subjetividad. Para ello se aplicarán técnicas de TLH que aseguren la máxima calidad de los recursos desarrollados


Hito: Obtención y puesta a disposición del proyecto del conjunto de recursos necesarios para las tareas de comprensión del lenguaje