Actividad CLH.TECS: Técnicas

Responsable de actividad: 
David Tomás

El tratamiento de la información y la construcción de herramientas necesarias para la elaboración de los L-Bricks se abordarán principalmente desde la perspectiva del aprendizaje automático. Desde esta perspectiva, son los propios algoritmos empleados en nuestras herramientas los responsables de aprender y mejorar su funcionamiento basándose en recursos textuales. El esfuerzo de los expertos se centra en este caso en la selección de los mejores algoritmos y características de aprendizaje a partir de los corpus y recursos recopilados. Esta aproximación dotará a nuestro sistema de la flexibilidad necesaria para poder adaptarse a diferentes lenguajes y dominios de aplicación. No obstante, se estudiará el uso de otras técnicas heurísticas complementarias basadas en conocimiento.

Para ello, partiremos de los recursos recopilados en la actividad CLH.RECS, aplicando diferentes herramientas y técnicas que nos permitan la obtención de características de aprendizaje que luego sirvan de entrada para alimentar a los algoritmos seleccionados. Cualquier característica del lenguaje es susceptible de ser utilizada como entrada en estos algoritmos: palabras, sintagmas, oraciones, entidades, sentidos, polaridad, etc. Se hace necesario por ello también el estudio de diferentes técnicas estadísticas de selección automática de características (como mutual information o chi square) que nos permitan determinar cuáles son las más adecuadas para cada tarea.

Por lo que respecta a los algoritmos de aprendizaje utilizados, estudiaremos diferentes propuestas, entre las que se encontrarán algoritmos reconocidos como las máquinas de vectores de soporte (SVM), vecinos más cercanos (K-NN), los árboles de decisión, o los campos aleatorios condicionales (Conditional Random Field - CRF).


Hito: Recopilación e investigación del conjunto de técnicas necesarias para las tareas de comprensión del lenguaje