El Grupo de Procesamiento del Lenguaje natural y Sistemas de Información es un grupo de investigación de la Universidad de Alicante centrado en el Procesamiento del Lenguaje Natural. Nuestro objetivo es acercar los ordenadores al lenguaje humano para facilitar el entendimiento entre los humanos y las máquinas y reemplazar tareas mecánicas por otras de alta productividad.
Nuestras investigaciones se enfocan en las tecnologías del lenguaje humano (TLH) y contamos con numerosas líneas de investigación dentro de el PLN:
- Modelos de lenguaje matemáticos y psicolingüísticos.
- Aprendizaje automático en PLN (Machine/Deep learning NLP)
- Lingüística de corpus.
- Desarrollo de recursos y herramientas lingüísticas.
- Semántica, pragmática y discurso.
- Resolución de ambigüedad léxica
- Generación de texto (NLG).
- Recuperación y extracción de información.
- Sistemas de búsqueda de respuestas.
- Análisis de sentimiento y minería de opiniones.
- Minería de texto en la blogosfera y las redes sociales.
- Resumen automático de texto.
- PLN en el ámbito biomédico.
- Robótica conversacional (Chatbots).
Estas investigaciones están financiadas a nivel europeo, nacional y regional, y gracias a ello se han desarrollado aplicaciones y herramientas innovadoras, además de también darnos la posibilidad de asistir a las conferencias más relevantes en nuestra área de investigación, dando como resultado un gran número de publicaciones en los mejores foros, revistas y medios de comunicación.
En esta página web mostramos todos los proyectos, productos y publicaciones en los que el GPLSI ha investigado, trabajado y desarrollado.
Quienes somos
Somos el grupo de investigación en Procesamiento del Lenguaje Natural del departamento DLSI de la Universidad de Alicante. Llevamos desde 1993 investigando en este subcampo de la Inteligencia Artificial y actualmente contamos con más de 30 miembros. Gracias a nuestra motivación, esfuerzo, rigurosidad científica y trabajo en equipo hemos ido creciendo a lo largo de los años, situándonos como uno de los grupos de investigación punteros y de referencia en PLN y Tecnologías del Lenguaje Humano.
Algunas de nuestras destrezas
Nuevos procesos de vigilancia o de toma de decisiones, generar nuevos documentos con fines específicos, analizar el sentimiento y la opinión de textos, producir resúmenes automáticos, simplificar automáticamente los textos para hacerlos más accesibles a una gran audiencia.
Algunas estadísticas sobre nuestra investigación
Proyectos
Publicaciones
Productos y recursos
Líneas de código
Productos
Oportunity
GPLSI Oportunity es una aplicación web que permite rastrear y clasificar de forma automática la información procedente de periódicos, páginas web y boletines oficiales para que sólo se obtenga la información que te interese, descartando el resto. De cada licitación y adjudicación de un boletín, el sistema extrae la información más relevante de forma automática.
Social Analytics
GPLSI Social Analytics es una aplicación que recupera mensajes de usuarios de las redes sociales Twitter e Instagram sobre un tema en concreto y, de forma automática, valora las opiniones expresadas en los mensajes. Esto permite realizar un seguimiento de las opiniones de la gente sobre diferentes temas como, por ejemplo, un destino turístico o unas elecciones. De esta forma, y gracias a esta herramienta se puede llegar a un análisis y predicción de opiniones y tendencias.
Social Observer
GPLSI Social Observer es una aplicación que recupera tweets de la red social de Twitter sobre un tema en concreto y, de forma automática, valora las opiniones expresadas en los mensajes. Esto permite realizar un seguimiento de las opiniones de la gente sobre un famoso, político, equipo de fútbol, producto, inversión en bolsa o, incluso, unas elecciones. De esta forma, y gracias a esta herramienta se puede llegar a un análisis y predicción de opiniones y tendencias.
Social Rankings
GPLSI Social Rankings es una aplicación web que permite realizar un seguimiento en tiempo real de la valoración de diferentes entidades, marcas, productos y personas en Twitter. Utiliza técnicas de análisis de sentimientos y minería de opiniones para clasificar automáticamente los tweets como positivos o negativos, y posteriormente utilizar esa información para ofrecer una valoración numérica para cada entidad. Así se genera un ranking de entidades para ver de manera muy intuitiva cuál es la mejor y peor valorada, además de la evolución de las valoraciones en el tiempo. Gracias a esta herramienta es posible realizar diferentes análisis para la predicción de opiniones y tendencias.
CuentosIE
El chatbot on-line CuentosIE se ha desarrollado con el objetivo de educar en Inteligencia Emocional, mejorar la comprensión lectora y ayudar al diagnóstico en la terapia psicólogica, todo ello utilizando los cuentos con mensaje e Inteligencia Artificial seleccionados y etiquetados por psicólogos. Este chatbot se ha probado con profesores, alumnos de primaria, secundaria, pre y postgraduados universitarios con muy buenos resultados.
Proyectos
Estamos trabajando con una gran cantidad de proyectos financiados a nivel europeo, nacional y regional e, incluso, privados, que generan recursos, software y productos que se usan exitosamente en productos comerciales o como base para otros proyectos.
Publicaciones
Publicaciones en los mejores y más conocidos foros de investigación y medios de comunicación gracias a nuestra constante y activa participación en las conferencias más relevantes de nuestra área de investigación
Recursos
Corpus etiquetados, colecciones de documentos y ontologías a vuestra disposición para investigación.
Análisis del Contexto de la Cita para el aprendizaje de la Función, Polaridad e Influencia.
El análisis de citas bibliográficas que usa variaciones de métodos de conteo provoca deformaciones en la evaluación del impacto. Para enriquecer el cálculo de los factores de impacto se necesita entender el tipo de influencia de los aportes de un investigador sobre el autor que los menciona. Para ello, se requiere realizar análisis de contenido del contexto de las citas que permita obtener su función, polaridad e influencia. El presente corpus trata sobre la definición de un esquema de anotación tendiente a la creación de un corpus de acceso público que sea la base de trabajo colaborativo en este campo, con miras al desarrollo de sistemas que permitan llevar adelante tareas de análisis de contenido con el objetivo planteado.
La actual generación de dispositivos m oviles ha cambiado la forma en que los usuarios interactúan con los medios digitales, pasado de ser pasivos y unidireccionales a proactivos e interactivos. Los usuarios usan estos dispositivos para comentar y valorar programas televisivos, buscando información relacionada sobre personajes, hechos y celebridades. Este fenómeno se conoce con el nombre de segunda pantalla. En este recurso ofrece una ontología para representar activos multimedia como parte fundamental del contenido del proyecto SAM, un proyecto de investigación financiado por la EU y enfocado al desarrollo de una plataforma avanzada de distribución de contenidos digitales basada en segundas pantallas, usando la sindicación de contenidos en el contexto de los medios sociales para proporcionar maneras abiertas y estándares de caracterizar, descubrir y sindicar recursos digitales.
DrugSemantics gold standard consists of 5 Summaries of Product Characteristics (SPC) written in Spanish. SPCs were retrieved from Medicines Online Information Center – CIMA – that belongs to the Spanish Agency for Medicines and Health Products – AEMPS.
This corpus is annotated with 10 Named Entities (NE) related to pharmacotherapeutic care, namely: Chemical Composition, Disease, Drug, Excipient, Food, Medicament, Pharmaceutical Form, Route, Therapeutic Action and Unit of Measurement. It contains 2241 ENs, 780 sentences and 226,729 tokens.
DrugSemantics was designed to be used for developing and testing of Spanish NE recogniton tools in the pharmacotherapeutic domain.
El esquema de anotación y el corpus de Emotiblog son un recurso multilingue que fue creado para detectar la subjetividad en los nuevos géneros textuales de la Web 2.0 con la intención de contribuir en la mejora de las tareas de Análisis de Sentimientos.
Este corpus ha sido etiquetado con una granularidad fina sobre análisis de sentimientos en 3 dominios distintos.
Advertencia: Este recurso es gratuito para investigación y debe ser referenciado convenientemente al siguiente artículo científic
ONTOLegolangUAge is an ontology that motivates the importance of associating linguistic information with standard ontologies and expressive models, beyond the label systems implemented in RDF and OWL. It is crucial to capture correctly the relation between natural language constructs and ontological structures.
ONTOLegolangUAge details the whole development life cycle of Language Generation and Deconstruction, based on a model that proposes, in a first Human Language Processing (HLP) phase, splitting texts into basic linguistic units (called L-Bricks) in order to combine them and infere knowledge (in a later Human Language Generation (HLG) phase).
This ontology aims to capture the semantics of documents through a set of key aspects in texts, such as the temporal dimension, presence of named entities, detection of opinionated information, or conceptual classifications. In addition, the ontology provides a lexical dimension, where the sentence of each document, and a possible summary derived from it, are taken into account. These are determining factors for setting up our own interpretation of possible scenarios (a meta-level specification) and vocabulary. Since our ontology aims to be reused by a large community, we tried to establish basic NLP terminology that was hierarchized by experts in this research field.
Contáctanos
- Página de contácto
- E-mail: gplsi.contact@dlsi.ua.es
- Teléfono: +34 965 90 70 76