Learning to Rank - Tutorial

Imagen obtenida de http://finanzasuniversitarias.edunomia.es/2011/10/08/rankings-universitarios/Este supuesto tutorial¹, presentado por Parth Gupta de la Universidad Politécnica de Valencia, explica cómo mejorar los resultados de búsqueda mediante algoritmos de aprendizaje automático. Hoy en día, los motores de búsqueda son primordiales para la vida contemporánea. Aunque no lo sepas, cuando navegas por Internet y buscas algo en alguna página concreta mediante un buscador o utilizas Google o Bing, estás utilizando un motor de búsqueda. Prácticamente todos estos buscadores te devuelven un resultado de búsqueda formado por una lista ordenada de enlaces a documentos (ranking), normalmente también te muestran un trozo del texto de cada uno de los documentos (snippet)para que puedas tener una idea de lo que contiene dicho documento sin tener que visitarlo. La clave de estos buscadores es presentar este ranking de documentos de forma que haya la mayor proporción de documentos interesantes para ti (precisión) y que estén el mayor número de documentos interesantes que pueda haber en la web intentando no dejar alguno importante (cobertura). Por tanto, estos buscadores intentan mejorar estos dos factores en sus búsquedas para mejorar la calidad.

Normalmente, los buscadores utilizan técnicas estáticas, que no mejoran con el tiempo, basadas en lo llamada métodos no supervisados. El autor propone un nuevo sistema basado en aprendizaje automático y para ello utiliza el corpus supervisado llamado LetoR Dataset que aprende de sus errores y aciertos utilizando técnicas de aprendizaje automático supervisado. Estos sistemas tienen bastantes ventajas como, por ejemplo, que aprenden con el tiempo y, por lo tanto, mejoran afinando los parámetros del modelo de forma automática, se pueden adaptar a las preferencias de cada usuario a partir de la retroalimentación de éstos² o permiten incorporar nuevas características de aprendizaje.

Estas técnicas no sólo se pueden utilizar en procesos de búsqueda si no, además, se puede utilizar en tareas de filtrado colaborativo (collaborative filtering) que permiten que documentos descartados por ciertas personas puedan descartarse también para otros usuarios antes búsquedas similares; extración de la frase clave (key-phrase extraction) para, por ejemplo, mostrar la parte más relevante de un documento; o para encontrar documentos con la respuesta a preguntas en sistemas de búsqueda de respuestas (question answering).

Una presentación bastante curiosa pese al extraño acento indio del ponente, su extrema manía de ir para adelante y para atrás con las trasparencias y por poner trasparencias absurdamente cómicas en medio de su presentación que no hicieron mucha gracia a la audiencia. Pero me llamó la atención al utilizar como medida de calidad, de un método llamado Normalized Discounted Cumulative Gain que no había escuchado hasta la fecha pues lo normal es utilizar el MAP (Mean Average Precision) que intenta obtener una media entre la precisión y cobertura en los n primeros resultados de la búsqueda.

Notas

¹ Aunque el título tiene la palabra tutorial y estaba definido como tal, el autor simplemente ha hecho una charla normal.

² La retroalimentación se refiere a rectificaciones que los usuarios hacen de los resultados y que el sistema utiliza para obtener un corpus supervisado o para mejorar el sistema.

Últimas noticias

Noticias científicas