Actividad A.2. Identificación de la información necesaria para poder obtener la representación canónica de los textos

Para llevar a cabo esta actividad nos basaremos en los niveles de análisis del lenguaje utilizados en las TLH: nivel léxico, sintáctico y semántico. Centrándonos en estos tres niveles el objetivo de esta actividad será analizar y determinar la información  que se puede obtener en cada uno de ellos y que nos pueda servir para la representación canónica de un texto. La información podrá aparecer de manera directa o indirecta, bien porque se encuentra de forma explícita en el texto (por ejemplo, las palabras que forman el texto), bien porque está de forma implícita y se puede extraer utilizando herramientas y recursos de TLH, (por ejemplo, podemos obtener la función sintáctica de una palabra en una oración a partir de la salida de un analizador sintáctico, como puede ser Freeling), o bien porque está en forma de metadatos (por ejemplo, si se trata de una noticia, podemos obtener información de la fecha en la que se escribió, el lugar, el periódico que la publica, etc.). También estudiaremos si alguna de esta información ya está contemplada en la estructura  L-BRICK para que nos sirva como punto de partida para poder reutilizar el conocimiento.