3LB

El objetivo principal de este proyecto es construir tres corpus anotados sintácticamente (treebanks) para el español, catalán y euskera.  Además de la anotación sintáctica, se realizará una anotación semántica mediante los synsets de los diferentes wordnets (http://www.cogsci.princeton.edu/~wn/w3wn.html) elaborados en cada lengua, así como una anotación de los elementos anafóricos y elípticos y la correferencia. Para el español y el catalán el volumen del corpus será de 100.000 palabras cada uno, en el caso del euskera 50.000 por razones de mayor complejidad notacional y menor cobertura del wordnet de que se dispone (35.000 entradas frente a las 100.000 existentes para el castellano o las 65.000 para el catalán).

Página oficial: 
http://www.dlsi.ua.es/projectes/3lb/
Responable: 

Últimas noticias

Noticias científicas