Actividad A.3. Definición del modelo más adecuado para la representación canónica de los textos

Una vez definidos el concepto de representación canónica de un texto, así como el tipo de información necesaria, el siguiente paso es establecer el modelo conceptual que nos va a permitir integrar estos dos aspectos e implementarlos. Para ello, investigaremos y analizaremos modelos que ya existen en otros ámbitos, como el modelo Entidad Relación en el ámbito de las bases de datos (Chen, 1976), el modelo orientado a objetos (Schwabe y Rossi, 1995), el Modelo de Lenguaje Unificado (UML) para el análisis y especificación de sistemas de información (Rumbaugh et al., 2004) o el modelo vectorial (Baeza-Yates y Ribeiro-Neto, 1999) y el probabilístico (Blei, 2012) , tan frecuentemente utilizados en la representación de textos para tareas de TLH.

(Chen, 1976) Peter Pin-Shan Chen. 1976. The entity-relationship model—toward a unified view of data. ACM Trans. Database Syst. 1, 1 (March 1976), 9-36. DOI=10.1145/320434.320440 http://doi.acm.org/10.1145/320434.320440
(Schwabe y Rossi, 1995) Daniel Schwabe and Gustavo Rossi. 1995. The object-oriented hypermedia design model. Commun. ACM 38, 8 (August 1995), 45-46. DOI=10.1145/208344.208354 http://doi.acm.org/10.1145/208344.208354
(Rumbaugh et al., 2004) James Rumbaugh, Ivar Jacobson, and Grady Booch. 2004. Unified Modeling Language Reference Manual, the (2nd Edition). Pearson Higher Education.(Baeza-Yates y Ribeiro-Neto, 1999) Ricardo Baeza-Yates y Berthier Ribeiro-Neto. Modern Information Retrieval. Addison-Wesley, Wokingham, UK, 1999.(Blei, 2012) David M. Blei. 2012. Probabilistic topic models. Commun. ACM 55, 4 (April 2012), 77-84. DOI=10.1145/2133806.2133826 http://doi.acm.org/10.1145/2133806.2133826