MÓDULO B

Análisis, definición y desarrollo de un modelo de lenguaje universal: inclusivo, igualitario y accesible

En este módulo, basándonos en las características del lenguaje obtenidas en el módulo anterior centradas en los perfiles de usuario/a se realizará un análisis computacional de estas características y se generará un modelo del lenguaje universal: inclusivo, igualitario y accesible (LIIA). Además, será parte de este módulo la definición de métricas de calidad que me permitan determinar si un texto es o no igualitario, inclusivo y/o accesible, para poder determinar posibles correcciones posteriores.

Tarea B.1. Análisis computacional del vocabulario léxico-semántico.

En esta tarea se analizará de forma automática el vocabulario utilizado en un idioma con el objetivo de identificar las expresiones discriminatorias del lenguaje (uso no correcto/no apropiado del lenguaje, sesgos del lenguaje para discriminar a un colectivo) y no accesibles. Para ello se utilizarán herramientas de TLH, tales como recursos o analizadores léxicosemánticos, como Babelnet (Navigli & Ponzetto, 2012). Estas estructuras/expresiones serán aprendidas y almacenadas en diccionarios que ayudarán a retroalimentar y mejorar el sistema.

Tarea B.2. Análisis computacional de las estructuras sintáctico-semánticas.

De forma análoga a la tarea anterior, en esta tarea se analizarán y detectarán de forma automática las estructuras sintácticosemánticas utilizadas en un idioma que permitan identificar las expresiones discriminatorias del lenguaje (uso no correcto/apropiado del lenguaje, sesgos del lenguaje para discriminar a un colectivo) y no accesibles. Analizadores sintácticos o de dependencias, como por ejemplo Freeling (Padró & Stanilovsky, 2012) o Stanford Parser (Chen & Manning, 2014) serán utilizados para esta tarea, entre otras herramientas. Estas estructuras/expresiones serán aprendidas y almacenadas en diccionarios que ayudarán a retroalimentar y mejorar el sistema.

Tarea B.3. Generación del modelo del lenguaje universal LIIA.

El modelo del lenguaje generado garantizará el equilibrio entre los perfiles de usuario/a y eliminará a su vez planteamientos discriminatorios. Los modelos de lenguaje se crearán mediante el uso de técnicas probabilísticas y/o de aprendizaje automático o profundo. En esta tarea, se analizará también el tipo o tipos de modelos de lenguaje a utilizar, por ejemplo, modelos de lenguaje basados en caracteres, n-gramas, modelos factorizados del lenguaje o modelos de lenguaje posicionales, entre otros, pudiendo combinar varios de ellos si se considerara adecuado para el proyecto (Alexandrescu & Kirchhoff, 2006) (Duh & Kirchhoff, 2004) (Kim et al. 2016).

Tarea B.4. Definición de métricas de calidad para el lenguaje LIIA.

En esta tarea se pretende determinar el nivel de igualdad presente en los textos. Para ello, las métricas definidas medirán el equilibrio entre perfiles de usuario/a (colectivos) y determinará si existen predominancias (por ejemplo, lenguaje androcéntrico). Desde el punto de vista de los diferentes modelos del lenguaje para cada colectivo, se trataría de medir que cada modelo estuviera representado en la misma proporción. De esta manera, la métrica que determine si un texto contiene un lenguaje igualitario de género determinará que no existe ninguna predominancia entre el colectivo masculino o femenino. Por tanto, las métricas servirán para clasificar el grado de universalidad de los textos entendida como nivel de inclusividad, igualdad y accesibilidad que tienen.