MÓDULO E

Evaluación

Este módulo tiene como objetivo realizar una evaluación robusta para los enfoques y módulos intermedios que se vayan desarrollando durante el proyecto, así como el enfoque final de generación de lenguaje universal. La evaluación será un aspecto clave y crucial para el proyecto. Para ello, se llevará a cabo dos tipos de evaluación: intrínseca y extrínseca, analizando el tipo de evaluación más apropiado en cada momento y combinando métricas de evaluación automática y manual, en cada caso. A continuación, se explican las tareas necesarias para la realización de la evaluación.

 

Tarea E.1. Evaluación intrínseca La evaluación intrínseca determinará de forma independiente el rendimiento y calidad de cada uno de los modelos obtenidos y enfoques propuestos durante el proyecto, tanto cuantitativamente como cualitativamente.

Dicha evaluación será rigurosamente definida y establecida de acuerdo a los aspectos del texto que se deseen evaluar. Para la evaluación cuantitativa, se utilizarán inicialmente herramientas (p. ej. BLEU de Papineni et al. (2002)) y métricas de evaluación (p.ej. cobertura, precisión, medida F, perplejidad) ampliamente utilizadas y aceptadas por la comunidad investigadora en las Tecnologías del Lenguaje Humano tanto relacionadas con la comprensión como con la generación de información textual. Si fuera necesario, se investigará también la posibilidad de definir nuevas métricas adicionales adecuadas para abordar las deficiencias de las existentes, puesto que muchas de las herramientas existenten necesitan disponer de textos de referencia para poder comparar la salida generada de forma automática y pueden no tener en cuenta los aspectos que se abordan en este proyecto; o también, métricas que permitan evaluar intrínsecamente la detección y transformaciones realizadas. En otros casos, se realizará también una evaluación cualitativa para evaluar otros aspectos, como la corrección del texto generado, su significado y si aborda el propósito para el que se generó. Este tipo de evaluación se llevará a cabo por parte de expertos, que requerirá la participación real de personas usuarias (Pu et al., 2012). Dicha evaluación se realizará mediante plataformas de crowdsourcing como Crowdflower[1], que incluyan políticas apropiadas de privacidad y protección de datos para garantizar que los datos personales de los participantes no serán distribuidos. En estos casos se definirá una escala Likert de al menos 5 valores. En estas pruebas elegiremos un equipo equilibrado de participantes, garantizando la paridad. Además, la calidad de la evaluación se verificará en forma de pruebas preliminares o tareas que garanticen el compromiso total de los participantes. Los resultados de las evaluaciones con expertos podrán dar lugar a la creación de corpus de referencia. Por último, y enmarcado también en este tipo de evaluación, se plantea la evaluación empírica de la usabilidad de los diferentes prototipos con las personas usuarias.

Tarea E.2. Evaluación extrínseca Además de la evaluación intrínseca, se realizará una evaluación extrínseca para medir la utilidad y demostrar la aplicabilidad del enfoque de generación de lenguaje universal propuesto en el contexto de otras tareas de TLH y otros ámbitos (p.ej. ámbito académico-educativo).

Como mínimo, se plantea definir un escenario concreto y aplicar el proyecto a dicho escenario. Planteamos el ámbito académico universitario como un posible escenario inicial en el que se podría demostrar la aplicabilidad del proyecto, puesto que es un ámbito donde es necesario disponer de modelos de lenguaje universal (igualitario, inclusivo y accesible) para garantizar, en todo momento, la inclusión de todos los colectivos que se integran en la comunidad universitaria, el trato igualitario y equitativo en todos ellos, y por supuesto, la accesibilidad de la información, para que cualquier persona, independientemente de que ésta tenga o no, algún tipo de diversidad funcional o cognitiva o un menor nivel de conocimientos sobre un área especializada, pueda acceder a la información y comprenderla en su totalidad. Para esta evaluación se tendrán en cuenta diferentes características de los perfiles definidos, como condición social, capacidades cognitivas, etc., pero siempre teniendo el sexo de la persona como una variable transversal a las diferentes evaluaciones, para poder definir y medir claramente los aspectos o peculiaridades de cada género. Se analizarán y plantearán técnicas de gamificación (Deterding et al., 2011; Werbach & Hunter, 2012; Huang & Soman, 2013; Wu et al., 2015; Méndez & Lloret, 2016) para que, a través de pequeños juegos y de forma colaborativa, sea más ameno y divertido poder testear las herramientas y modelos generados. Por supuesto, en estas técnicas de gamificación tendremos en cuenta que, puesto que las mujeres y los hombres piensan diferente, también juegan diferente. Se plantearán las peculiaridades en cada caso, de forma que la evaluación por gamificación sea completamente efectiva porque está adecuadamente aplicada a cada género.