Extracción de información en documentos públicos

Consultar el BOE o los boletines oficiales suele ser una tarea tediosa. Si, además, tu trabajo depende de la información que aparece en ellos debes gastar mucho dinero y recursos para consultar los distintos boletines o documentos públicos que cada día se publican. Es por ello que el GPLSI pretende crear mecanismos automáticos o semi-automáticos de extracción de información a partir de estos documentos públicos.

Con esta beca de colaboración se pretende crear una aplicación que permita extraer información utilizando técnicas de Procesamiento del Lenguaje Natural y Sistemas de Información. Esto permitirá extraer datos relevantes a partir de plantillas a rellenar. El objetivo final es añadir esta información a bases de datos estructuradas en donde cada fila sea una instancia obtenida de una noticia y cada columna una columna con un dato específico de dicha noticia. Por ejemplo, si necesitáramos obtener un listado de becas de investigación, con este sistema podría clasificar todas aquellas noticias en los boletines del estado y de la autonomía que tengan que ver con becas de investigación y extraer los datos relevantes de ellas como la cuantía de la ayuda, la fecha de presentación, el organismo que la ofrece, etc.

De esta forma, usuarios registrados en el sistema podrían monitorizar este tipo de información y estar al tanto de noticias de su interés sin necesidad de leer todas las nuevas noticias que surgen diariamente.

 

Responsable: 
Asignado a: 
Lea Canales Zaragoza

Últimas noticias

Noticias científicas