Desarrollo de un buscador distribuido en Internet

Hoy en día los buscadores de Internet son una herramienta indispensable para todos los internautas y, sobretodo, para los profesionales que dependen de los resultados de Google, Bing, etc. para su trabajo. Es por ello que desarrollar buenos sistemas de recuperación de información es crucial para la vida moderna. Pero dada la inmensidad de información disponible, estos sistemas no pueden estar concentrados en una única máquina, sino que deben estar distribuidos en decenas o cientos de máquinas. Este proyecto pretende adaptar un buscador de Internet desarrollado en el GPLSI para que trabaje de forma distribuida.

El objetivo primordial es conseguir un robot o crawler de Internet que, a partir de muchas máquinas trabajando paralelamente, sea capaz de descargar millones de páginas al día e indexarlas. Para ello, se adaptará un crawler existente pero que funciona en un único servidor, en una plataforma que permita procesar toda esta información de forma distribuida. Además, esta plataforma deberá permitir hacer búsquedas que se distribuirán entre todas las máquinas para obtener un único listado de resultados en tiempo real.

Con esta beca se aprenderá a utilizar y programar sistemas de recuperación de información distribuidos y aplicarlos a aplicaciones reales.

 

Responsable: 
Asignado a: 
Francisco Soler

Últimas noticias

Noticias científicas