Actividad EVAL.INTR: Evaluación intrínseca

Enviado por patricio el Vie, 26/04/2013 - 10:32

El objetivo de esta actividad es el análisis y la definición de un conjunto de métricas que nos permitan evaluar de manera intrínseca el modelo de GLH definido en el proyecto. Se pretende abarcar métricas tanto cualitativas como cuantitativas capaces de medir la validez de las diferentes capas definidas en el proyecto, y debido a lo novedoso de la propuesta será necesario analizar qué métricas de las utilizadas hasta el momento son aplicables al modelo definido y qué métricas serían necesarias para los nuevos elementos incorporados en el modelo. En esta actividad los diferentes elementos del modelo se podrían evaluar de manera independiente.

En esta tarea se analizarán las diferentes métricas que hasta el momento se han estado aplicando a la evaluación del TLH para ver si se consideran útiles en la medición de las diferentes capas en las que está estructurado el modelo. Para la capa de CLH, se analizarán las métricas asociadas a los sistemas de extracción de información necesarios para la construcción del L-Brick. Por otro lado, se analizarán las métricas tanto cuantitativas como cualitativas usadas hasta el momento por los sistemas de generación tradicionales, así como los planteados en las nuevas aproximaciones de generación de lenguaje humano, haciendo una profunda revisión de las diferentes conferencias y competiciones en esta temática para valorar qué se puede aplicar al modelo presentado en este proyecto. Conferencias como : European workshop on Natural Language Generation (ENLG, 2011), International Conference on Natural Language Generation (INLG, 2011) , Generation Instructions in Virtual Environments (GIVE, 2011), Workshop on Multimodal Output Generation (MOG, 2011) y Generation Challenges (GC, 2011) se centran en el GLH y su evaluación.

Teniendo en cuenta que el modelo definido en este proyecto se compone de tres capas fundamentales (CLH, Deconstrucción en L-Bricks y GLH) será necesario evaluar cuantitativamente cada una de esas capas de manera independiente para determinar su robustez y fiabilidad.

Por un lado, en la capa CLH, se estudiará el uso las métricas propias para la evaluación tradicional de las herramientas y recursos de TLH utilizados.

Para el caso de la evaluación de la capa L-BRICKS, al ser algo totalmente novedoso, se buscarán nuevas métricas específicas, capaces de determinar si el conjunto obtenido de L-Bricks representa fielmente el conocimiento del documento original, o si por el contrario, se produce alguna pérdida de información. Se valorará especialmente el uso de técnicas comparativas entre diferentes lenguas para determinar si, ante corpus multilingües paralelos, las construcciones de L-Bricks generadas son realmente compatibles.

En cuanto a la capa de GLH, la gran mayoría de las evaluaciones de este tipo de sistemas publicadas hasta el momento son cuantitativas: en Reiter y Belz (2009) se mide tanto el impacto de los textos generados en una tarea concreta, como la medición por parte de humanos de los textos generados en una escala denominada Likert, o la medición de la similitud con mediciones automáticas como BLEU (Papineni, Roukos, Ward, & Zhu, 2002). Una vez analizadas con detalle las métricas cuantitativas existentes en el GLH, en esta tarea será necesario adaptar dichas métricas y/o definir nuevas para medir la validez y fiabilidad de la capa de GLH.

Alternativamente, las mediciones cualitativas llevadas a cabo por expertos proporcionan la información necesaria para saber en qué debe mejorarse el sistema. Se han definido métricas cualitativas en trabajos como (McKinlay, McVittie, Reiter, Freer, Sykes y Logie (2010) y Sambaraju et al (2011).

De la misma forma, analizadas las métricas cualitativas, se determinarán cuales de las métricas se pueden adaptar y/o cuales son necesarias definir y crear de nuevo para evaluar cada una de las capas del modelo y que hemos comentado en la tarea anterior.

Hito: Análisis y definición de un conjunto de métricas cualitativas y cuantitativas para la evaluación individual y colectiva de los componentes del modelo LEGOLANG

Inicie sesión para comentar

Menú principal

Se encuentra usted aquí

Inicio de sesión

Actividad EVAL.INTR: Evaluación intrínseca