MÓDULO C

Módulo C. Detección y corrección del texto para su adaptación a un modelo de lenguaje y búsqueda de información basada en perfiles.

En este módulo se tratarán las investigaciones y desarrollos relativos al reconocimiento, interpretación y adaptación de los textos conforme a los modelos de lenguaje definidos en los módulos anteriores. Para ello se hará uso de técnicas de aprendizaje automático basadas en corpus, tanto supervisadas como no supervisadas, así como otras heurísticas obtenidas por estudios previos y experiencias de las personas usuariaso.

Tarea C.1. Desarrollo de técnicas de detección, transformación y corrección de textos de acuerdo a los modelos de lenguaje.

En esta tarea se definirán diferentes técnicas para el reconocimiento, la transformación y la corrección del lenguaje de acuerdo a modelos previamente aprendidos. Con ello se pretende abordar el problema de la identificación de un texto de acuerdo a las necesidades de un colectivo, la transformación de un texto para su adaptación al modelo de lenguaje elegido, así como la depuración de textos para corregir errores de acuerdo con las necesidades del perfil de usuario/a para el que va destinado. Para ello, se explorarán diferentes enfoques empleados en tareas de clasificación y regresión del lenguaje natural como máquinas de vectores de soporte (SVM), algoritmos de clustering, deep learning, redes neuronales artificiales (ANR), modelos ocultos de markov, árboles de decisión, etc., así como otro tipo de heurísticas extraídas de trabajos previos (estudios y guías de estilo) y de experiencias de las personas usuariaso.

Tarea C.2. Desarrollo de técnicas de recuperación de información relevante según modelos de lenguaje.

En esta tarea se explorará el uso de diferentes técnicas para la búsqueda de información de acuerdo a perfiles de usuario/a basado en el modelo de sus necesidades lingüísticas, puesto que la información considerada como relevante será distinta en función de los perfiles de laos personas usuariaos que la vayan a utilizar. En este sentido se tratará de detectar qué tipo de información es especialmente relevante para el colectivo analizado de acuerdo con sus necesidades del lenguaje y se proporcionarán los documentos más significativos. Por medio de esta tarea se pretende seleccionar, dado un tema de búsqueda, el texto que mejor se adapte desde el punto de vista lingüístico al perfil del usuario/a. Permitiría, por ejemplo, encontrar el medio de comunicación que publica la noticia más adecuada y accesible para un determinado colectivo.

Tarea C.3. Desarrollo de técnicas de monitorización de comportamientos en la red según modelos de lenguaje.

En esta tarea se definirán técnicas de monitorización de sentimientos, opiniones y emociones para identificar y determinar comportamientos en diferentes colectivos en base a la manera de interaccionar en Internet (por ejemplo, en foros o redes sociales públicas y abiertas). Como punto de partida se tendrán en cuenta trabajos previamente realizados (Fernández et al. 2015) (Fernández et al. 2017) en este ámbito para integrar el nuevo conocimiento adquirido en el proyecto y mantener e incluso, mejorar los resultados previos al aplicar dicha monitorización en un ámbito totalmente novedoso. La monitorización permitirá que podamos establecer relaciones y conexiones entre el tipo de lenguaje que utilizan o cómo lo utilizan y el comportamiento detectado. Esta monitorización permitirá, por un lado, disponer de un panorama real del uso del lenguaje, mientras que por otro nos servirá para poder proponer medidas de concienciación y corrección del lenguaje para conseguir una sociedad IIA a través de un uso correcto y apropiado del lenguaje. Además se abordarán las técnicas de detección automática de planteamientos denigrantes o violentos a través de un análisis del lenguaje usado en las redes sociales, permitiendo atajar a tiempo posibles comportamientos negativos hacia los diferentes colectivos o individuos como la violencia de género (Woodlock, 2017), el ciberbulling (Namdeo, Pateriya, & Shrivastava, 2017) , o incluso la autoviolencia que puede derivar en una situación de suicidio (Zafra, Gómez-Soriano & Navarro-Colorado, 2017). La confrontación de los textos recuperados desde las redes frente a los modelos de lenguaje adecuados permitirá detectar posibles focos de problemas que podrán ser analizados por los especialistas correspondientes. También se trabajará con técnicas para la detección de emociones a través del lenguaje que permita clasificar el estado emocional de un determinado colectivo en observación (Canales & Martínez-Barco, 2014). Para ello nos basaremos en técnicas de perfilado de personalidades como las realizadas en Buraya et al. (2017).