There’s no Data like More Data? Revisiting the Impact of Data Size on a Classification Task

Un estudio realizado por Ines Rehbein y Josef Ruppenhofer de la Saarland University para el congreso LREC del 2010. En él realizan un estudio de cómo afecta el tamaño del corpus en los sistemas de aprendizaje automático aplicados al PLN (concretamente a la tarea de desambiguación semántica) y comparando dos técnicas semi-supervisadas opuestas.

En este trabajo hacen referencia a dos importantes trabajos sobre técnicas semi-supervisadas para reducir el esfuerzo de etiquetado de las muestras de entrenamiento. En el primero¹, , el autor asume que añadiendo suficiente información de entrenamiento (incluido ruido) puede resolver la mayoría de los problemas de clasificación en PLN. El segundo² trata sobre el uso del Aprendizaje Activo (Active Learning -AL-) el cual intenta minimazar el esfuerzo humano de anotación seleccionando cuidadosamente muestras de entrenamiento con más información asumiendo que incrementar las muestras de entrenamiento no siempre mejora los resultados y que es mejor tener un pequeño número de muestras de alta calidad que muchas de baja calidad. Esta última aproximación, además, reduce los tiempos y el coste de anotación.

Aunque los autores quieren realizar una comparación de estas dos técnicas y presentar su sistema MaJo, el artículo se enfoca mucho en el segundo afinando éste sistema para concluir que éste es mejor que la aproximación de Yarowsky del cual no realizan tan profundo análisis.

¹ D. Yarowsky. 1995. Unsupervised word sense disambiguation rivaling supervised methods. In Proceedings of ACL-1995, Cambridge. MA.

²David A. Cohn, Zoubin Ghahramani and Michael I. Jordan, 1996. Active Learning with statistical models. Journal of Artificail Intelligence Research, 4:129-145.

Últimas noticias

Noticias científicas