Twitter Dataset para la evaluación de sistemas de normalización.

Versión: 
1.0
Idiomas: 
Español

El recurso Twitter Dataset consta de 1000 términos anotados de forma manual extraídos de textos de la red Twitter con el objetivo de evaluar sistemas de normalización de textos de la Web 2.0.

Dichos términos han sido etiquetados en 3 categorías y se ha anotado la forma normalizada para cada uno de ellos.

Etiquetas empleadas: 

  • OOV - palabras fuera del vocabulario.
  • IV - palabras dentro del vocabulario.
  • NO - elementos no normalizables (símbolos de puntuación, tags de Twitter... etc).

 

Proyectos vinculados: 
Líneas de investigación: 
Externo: 
Interno
Licencia: 

Licencia de Creative Commons

Twitter Dataset para la evaluación de sistemas de normalización by Alejandro Mosquera is licensed under a Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 Unported License.

 

 

 

Últimas noticias

Noticias científicas