Todo sistema de inteligencia artificial basado en aprendizaje automático supervisado debe aprender a partir de ejemplos y estos ejemplos deben ser preparados por humano de una forma sistemática y con una calidad medible y suficiente. A la colección de estos ejemplos lo llamamos corpus. ¿Quieres saber cómo se preparan y por qué no es una tarea nada sencilla? ¿Quieres ayudar a la prevención del suicidio haciendo ciencia ciudadana? Pues en este artículo te lo explicamos.

Aunque un corpus para aprendizaje automático tiene una definición sencilla, un conjunto de textos debidamente etiquetados con una categoría, realmente no es una tarea nada trivial construir uno. Y esto es debido a que las personas interpretamos un texto de forma sumamente subjetiva cada vez que leemos. Incluso, la misma persona, puede interpretar una misma lectura de manera distinta una vez pasado el tiempo. ¿No os ha pasado alguna vez que una relectura de un libro os ha abierto a nuevas interpretaciones o aspectos que en la primera no os disteis cuenta? Es por eso que un corpus debe construirse con el mayor cuidado para evitar este tipo de fenómenos pues, si el corpus no tiene un consenso y cada persona interpreta los textos sin seguir un criterio y de forma bastante ambigua y contradictoria, esta ambigüedad se la estaremos enseñando a la máquina que después tiene que aprender de estos textos, provocando que no sea capaz de discernir, cuando venga un nuevo escrito, a qué categoría realmente va a pertenecer. Es como si a un niño le indicas que una misma acción en las mismas circunstancias le dices que está bien y otras que está mal. Puede llegar el momento en que el niño, ante la misma situación, no sepa realmente cómo actuar, tenga muchas dudas o, incluso, escoja la peor elección.

Es por todo esto que, el primer paso, es crear una guía de anotación, intentando hacerla lo más clara y no ambigua posible. La guía de anotación es un manual que te explica cuál va a ser el proceso de anotación de los textos pero también qué significa cada una de las categorías que queremos usar como etiquetas. Por ejemplo, el corpus de Life! tiene una clasificación que llamamos "Nivel de Alerta", con cuatro categorías: "No riesgo", "Posible", "Urgente" e "Inmediato". Si yo le envío un texto que se ha recuperado de una red social a un anotador, ésta debe clasificarlo en una de estas cuatro categorías dependiendo de las posibles ideaciones suicidas o depresivas que tiene la persona que escribió el texto y su nivel de urgencia, por supuesto, según la interpretación del anotador. En ocasiones, este proceso es muy fácil, por ejemplo, si una persona está hablando sobre sus próximas vacaciones, sin mencionar ningún tipo de emoción triste o deprimida, sino todo lo contrario, alegría, es evidente que la categoría de este texto será "No riesgo". Pero, ¿y si una persona muestra algún signo de emoción de tristeza? ¿Ha sido una cosa puntual porque ha tenido un mal día o es algo más prolongado en el tiempo producto de una depresión? Los psicólogos saben, desde hace mucho tiempo, que la tristeza no tiene porqué implicar estar deprimido, ni mucho menos. Son dos cosas muy distintas; la primera es un estado de ánimo que se puede cambiar fácilmente y la segunda es una enfermedad psicológica o psiquiátrica, dependiendo del grado, y no es tan fácil de superar. Pero un experto, o una máquina inteligente, tiene que saber distinguir estos casos de forma clara en la mayoría de las veces aunque siempre habrá un margen de error. En estos casos donde hay cierta ambigüedad y la etiqueta a poner a un texto no es tan clara, es donde hay que prestar bastante atención. Es por eso, que en esta guía de anotación, aparte de la descripción de cada una de las categorías o etiquetas, también hay que poner consejos y ejemplos con el objetivo de que todos los anotadores tengan claro los conceptos y qué textos deben aparecer en una categoría u otra.

Pero incluso, después de hacer la guía, esta seguramente no será correcta: las categorías pueden no ser las apropiadas o no estar lo suficientemente bien descritas. Es por eso que antes de poder usarla como fuente de aprendizaje para un modelo de inteligencia artificial, tenemos que valorar la calidad de la guía de anotación. ¿Y cómo hacemos esto? Pues valorando realmente la calidad del corpus generado. Si el corpus tiene calidad, entonces, es de suponer, que la guía con la que nos hemos basado para anotar dicho corpus tendrá calidad. ¿Y cómo se valora la calidad de un corpus? Pues es aquí está el quid de la cuestión y una de las principales etapas de la anotación: debemos valorar el acuerdo mutuo entre varias anotaciones diferentes de los mismos textos. Y esto se puede conseguir de dos formas distintas: dos o más anotadores anotan los textos al mismo tiempo o, si no se tiene el suficiente presupuesto para contratar a dos o más personas, entonces, puede una misma persona anotar los mismos textos en distintos intervalos de tiempo. Con estas anotaciones diferentes se compara si las etiquetas que se usan en los mismos textos coinciden (hay acuerdo) o no (no hay acuerdo) y se valora el nivel de acuerdo utilizando ciertas medidas, como el Coeficiente de kappa de Cohen, una de las medidas más utilizadas para mediar este acuerdo mutuo (mutual agreement). Dedicaré otro artículo para explicar este coeficiente pero es una medida estadística que intenta dilucidar que realmente es un acuerdo y no una simple coincidencia azarosa. Si este coeficiente alcanza la suficiente calidad (típicamente 0.85 o más) entonces se considera que el corpus tiene la suficiente calidad.

Si no se consigue que el coeficiente Kappa de Cohen alcance un valor de calidad suficiente, los distintos anotadores se deben reunir, discutir y argumentar el porqué de las diferencias, analizando cada caso de forma individual y llegando a un consenso de cómo mejorar la guía para que sea más clara y menos ambigua. Después se mejora la guía con las conclusiones adoptadas en la reunión y se vuelve a repetir el proceso de anotar con otros textos diferentes. En ocasiones se descubre que ciertas categorías tienden a confundirse mucho y no hay manera de que varios anotadores llegan a la misma conclusión. En estos casos se puede decidir unir o separar categorías si el objetivo del corpus lo permite. Es decir, que juntar o separar categorías no afectará al sistema de aprendizaje automático para detectar lo que se quiere detectar, por ejemplo, en nuestro caso, distinguir entre personas que tienen ideación suicida de las que no y el grado de alerta.

Después de repetir este proceso varias veces, cosa que puede llevar meses de trabajo y reuniones, y cuando el acuerdo mutuo llega a un nivel aceptable, entonces, y tras una pequeña reunión para ponerse de acuerdo en las pocas diferencias que han aparecido, ya tenemos un corpus gold-standard, un corpus acordado entre los anotadores que se define como el patrón oro, es decir, acordado entre varias personas como correcto. Este corpus será muy útil a la hora de incorporar más anotadores en el proyecto com veremos más adelante.

Una vez tenemos este corpus gold-standard, es entonces cuando se empieza a ampliar con muchos más textos y de una forma más rápida, pues ya se ha validado la guía y la metodología de anotación y se supone que los nuevos textos que se anoten, esta vez de forma individual, ya tendrán la suficiente calidad. En este momento es cuando se puede invitar a más gente a anotar pero para ello, debemos utilizar el corpus gold-standard para que estos nuevos anotadores practiquen y para se valore la calidad de sus anotaciones. Así, lo primero que tiene que hacer un nuevo anotador es leerse con atención la guía de anotación. Cuando la tiene clara, se les pasa para practicar unos textos del gold-standard previamente anotados. Esta anotación solo servirá para ver si el nuevo anotador ha anotado bien y tiene los conceptos claros. Si este anotador no alcanza un acuerdo mutuo suficiente con respecto al gold-standard, se le indica sus errores y se le pasa una nueva tanda de textos del corpus para que vaya aprendiendo a cómo anotar este corpus en concreto. Este proceso se repite hasta que el anotador alcanza el acuerdo mutuo mínimo con respecto al corpus gold-standard y después ya se le va pasando nuevos textos no anotados y estos se van incorporando al corpus final.

Este proceso de anotación de corpus es crucial pues después será el que use la máquina de aprendizaje automático para aprender. Y tiene que hacerse de forma correcta y con la suficiente calidad. No es una tarea nada sencilla ni fácil e, incluso, se debe investigar nuevas formas de anotación. Esta tarea puede ser tan innovadora que se han realizado varias tesis en nuestro grupo de investigación solo enfocadas a construir un corpus sobre una temática determinada. Por ejemplo, tenemos el EmotiBlog, un corpus que valora la opinión de las personas con respecto a unos temas, como el protocolo de Kioto, o el Concit-Corpus, un corpus para valorar el porqué cita un científico el trabajo de otro, su influencia y si esta cita es positiva, negativa o neutra. Y aunque este proceso es muy importante, me entristece ver cómo, algunos investigadores de Procesamiento del Lenguaje Natural, lo desconocen y construyen corpus de forma totalmente errónea y sin conocer qué tal bueno es dicho corpus, invalidando de esta forma, los resultados que puedan obtener.

Si te ha interesado este proceso y te gustaría colaborar en un proyecto de investigación haciendo ciencia ciudadana, puedes proponerte como anotador a través del siguiente formulario o, incluso, introducir nuevos textos con ideación suicida que tú encuentres en las redes.

Categoría del artículo: 

Añadir nuevo comentario