La Atribución de Autoría trata de identificar al autor que ha realizado de uno o varios textos. Para ello intenta reflejar el perfil del autor mediante marcas idiosincráticas que no estén bajo su control consciente. La Atribución de Autorías es un área multidisciplinar, ya que en ella confluyen diferentes áreas de investigación (lingüística, derecho e informática) que trabajan de forma conjunta con un objetivo común: automatizar el tratamiento lingüístico del autor en ámbitos jurídicos y judiciales.
Entre los problemas que dificultan el desarrollo de esta tarea está la posible complejidad en la reconstrucción del perfil lingüístico del autor, puesto que éste puede variar en función del género o tema, de la época en que se produjo o incluso en distintas secciones del mismo documento según la sección. También dificulta la identificación del autor la presencia de obras escritas de forma colaborativa. Además de los aspectos comentados, uno de los mayores inconvenientes en la Atribución de Autoría, es la falta de corpus estándar para poder valorar las mejoras introducidas y compararlas con las técnicas existentes.
Respecto a las técnicas aplicadas, los primeros estudios estaban basados en la aplicación de técnicas estadísticas, mientras que, posteriormente, se han ido introduciendo técnicas de aprendizaje automático. Otras técnicas que se han comenzado a aplicar en los últimos años - sin estar exentas de controversia su utilización- son los algoritmos de compresión. Las técnicas de compresión encuentran cadenas comunes dentro del texto, codificando las más largas con el menor número de bits posible.
Para caracterizar la escritura del autor, se utilizan una serie de marcas a distintos niveles lingüísticos (a nivel de token, sintácticos, basados en la riqueza del vocabulario, según la frecuencia de aparición de las palabras, errores ortográficos y gramaticales, etc) junto a los métodos estadísticos y de aprendizaje automático, mientras que, los algoritmos de compresión se aplican directamente sobre los documentos, puesto que éstas técnicas, debido a su naturaleza, tienen la capacidad de capturar por ellas mismas rasgos distintivos de la escritura del autor a partir del texto al completo, sin ser necesaria una extracción previa de marcas de estilo.