LIVING-LANG: Modelado del comportamiento de entidades digitales mediante Tecnologias del Lenguaje Humano [RTI2018-094653-B-C22]
Las tecnologías del lenguaje humano se enfrentan al reto de adaptarse a medios sociales en continuo cambio, con niveles de calidad, coherencia, interacción y un uso del lenguaje altamente variables. Ante esta realidad, nuestra propuesta persigue el modelado dinámico a nivel espacio-temporal de entidades en medios sociales para la predicción del comportamiento.
En las primeras fases, el trabajo se centra en la identificación de las características de los individuos a través del lenguaje y su huella en la red. Esto se materializa en el estudio y diseño de nuevos modelos del lenguaje para una caracterización del individuo desde rasgos psicolingüísticos explícitos, registros del lenguaje específicos (mentira, emociones, violencia…), y representaciones por aprendizaje automático ajustadas a los escenarios que se planteen. Se realizará también una abstracción digital de colectivos: los grupos sociales diferenciables deben considerarse una entidad digital propia que se relaciona con su entorno. Esta ligadura usuario-comunidad es fundamental para lograr capturar los elementos sociales que también definen al individuo y su interacción con el ámbito en el que se integra, pues el comportamiento personal está influenciado por el contexto social.
La tradición investigadora de los grupos en métodos y técnicas del lenguaje humano en medios multilingües se reflejará en la adaptación de métodos para lograr los modelos anteriormente descritos a partir de información en distintos idiomas. No cabe duda de que este aspecto tendrá como resultado la construcción y puesta a disposición de la comunidad científica de nuevos recursos lingüísticos, así como modelos pre-entrenados útiles para transferencia de conocimiento en sistemas de aprendizaje automático.
La extracción de relaciones entre las entidades digitales es uno de los retos nucleares del proyecto. La propuesta persigue este objetivo a nivel semántico, gracias a la estructuración de la información en representaciones del conocimiento adecuadas para el procesamiento lógico. Los modelos ontológicos pueden recoger los aspectos fundamentales de la interacción entre entidades y su evolución, es decir, entender las relaciones en lo relativo al espacio (ubicación geográfica) y el tiempo (carácter temporal de la información). Ambas facetas en la definición de características son indispensables para la dinámica de los modelos, tanto individuales como grupales, de las entidades digitales.
No podemos obviar la naturaleza heterogénea de las fuentes a tratar, que hace fundamental el filtrado de información a partir de métricas y criterios de calidad: robustez, coherencia, veracidad, popularidad, reputación, percepción, entre otros. Esta caracterización espacio-temporal junto a procesos de cribado, nos permitirán el estudio de estrategias predictivas de alto rendimiento en la evolución de las entidades digitales, gracias a modelos de redes de entidades a nivel semántico con constituyentes interpretables.
La detección de riesgos o el reconocimiento de situaciones susceptibles de monitorización cercana permitirán la construcción de aplicaciones de alto valor social. De esta forma, culminamos el proyecto con la aplicación práctica de modelos dinámicos (vivos) de entidades digitales para la detección de situaciones de especial relevancia en los escenarios planteados como puede ser el: ciberacoso, terrorismo, suicidio, difusión de noticias falsas, repercusión de campañas de marketing, etc.