T.4.5. Extractor de rasgos lingüísticos

Si bien el conjunto de propiedades de una entidad digital viene en gran parte determinado por la aplicación sobre la que dicha entidad será utilizada, podemos establecer una serie de propiedades comunes fruto del análisis lingüístico del contenido textual relacionado, para determinar esos rasgos lingüísticos que pueden incluso modelar el pensamiento de un individuo.

Las propiedades básicas a identificar son uno de los resultados propios de esta investigación, si bien algunas de las candidatas son:

  • Los temas de los que tratan los textos, obtenidos mediante técnicas de modelado de temas. Este rasgo nos permitiría conocer, mediante palabras clave, los temas objeto de interés por la entidad en un momento dado.
  • El modelo del lenguaje del usuario, generado a partir de algoritmos estadísticos, que calculan la distribución de probabilidad del vocabulario relacionado con la entidad. Gracias a estos modelos podemos facilitar tareas como la desambiguación, detección de autoría, etc. y nos sirven como aproximación estadística a la gramática subyacente del usuario.
  • Los vectores de palabras son un modelo en el análisis de textos para tareas de agrupamiento, construcción de tesauros, lógica natural, búsqueda de sinónimos, análisis de analogía o análisis de sentimientos.