Esta conferencia realizada por Thamar Solorio de la Universidad de Alabama trata sobre la aplicación de herramientas de Procesamiento del Lenguaje Natural (PLN), concretamente los Modelos del Lenguaje (ML) para mejorar la predicción de desórdenes del habla en niños utilizando sistemas automáticos. Thamar Soliro es una doctora centrada en el Procesamiento del Lenguaje Natural y que trabaja en áreas de mezcla de lenguajes, modelado del lenguaje de los niños, autoría, extracción de información y computación forense. En esta charla habla sobre el transfondo del desorden de comunicación y el trabajo que han estado realizado sobre este área, así como lo que pretenden hacer en el futuro.
Se define el desórdenes del lenguaje en los niños cuando éstos tienen un problema de comunicación pero sin que haya ninguna otra deficiencia, ni física ni mental. El problema es que estas disfunciones del lenguaje puede causar decrimiento en el rendimiento académico y la evolución del individuo. Por lo tanto hay que tener un tratamiento temprano para subsanar estos problemas. El 7.4% de los niños americanos sufren algún tipo de desorden del lenguaje.
Como se ha comentado, la predicción debe ser temprana y puede ser observada en la forma de cómo se expresa y sirve como base para decidir qué pasos futuros se deben realizar. Los expertos tienen dos métodos: tests estandárizados y muestras del habla.
Este método consiste en realizar unos test y se miden distintos rasgos como el conocimiento del vocabulario, la producción o recepción del lenguaje, las habilidades semánticas, medir el desarrollo morfo-sintáctico del niño, etc.. Para realizar estos tests se toman una muestra típica en niños normales y se sacan una media normal que servirá como base. Si un niño se compara el score de este niño con el de la media. Este tipo de pruebas tienen un error muy grande debido a que si el niño no está representado por la media puede obtener distintos resultados (como niños que viven en zonas socio-económicas deprimidas o niños extranjeros).
Hay dos métodos:
* Los niños se graban mientras están jugando con otros niños o padres.
* Se presenta al niño un libro con una historia y se le pide al niño que la cuente.
Marcadores de interés: no conjugar el verbo o no haber concordancia con el género. El número de repeticiones, de correcciones, muletillas. uterancias, velocidad del habla.
uterancia = Una intervención.
Cuando se analizan este tipo de patrones y lo miden con respecto a una población típica con lo cual este método tiene el mismo problema que el anterior.
Los transcriptores delimitan los morfemas, marcan los errores tanto léxicos como gramaticalmente, las muletillas, etc.
El objetivo del grupo de Thamar es ayudar en este tipo de tareas para un diagnótico de forma más sistemática debido a que hay un sesgo muy grande por parte de los evaluadores al ser menos sistemáticos. En segundo lugar se puede medir un número más grande de características, se pueden obtener nuevos marcadores y evitar los umbrales por algo más complejo.
Emepzaron con un modelo más sencillo utilizando modelos del lenguaje. Se toman un cj de muestras normales y otro con problemas para crear dos modelos y determinar a cuál se parece más los nuevos niños. Se utilizan estos modelos con las partes de la oración más que con las palabras porque les interesa la información gramatical que con las palabras,
El segundo enfoque es más sofisticado para intentar encontrar más información sintáctica intentando obtener características del reconocedor del habla. Son características que normalmente se utilizan en lenguaje natural combinadas con características de los desórdenes del lenguaje. Se tienen 8 tipos de características:
1. Producción del lenguaje: cuantas uterancias, cuantas palabras en total, cuantas p
2. Características morfo-sintáticas: patrones sintácticos a nivel partes de la oración.
3. Conocimiento del vocabulario.
4. Velocidad del habla (fluidez)
5. Probabilidad del modelo del lenguaje
6. Scores estándas: promedio de la uterancia, promedio de palabras diferentes, etc.
7. Complejidad de la sentencia
8. Patrones de error
Por ejemplo: Fluidez
Detecar repeticiones, o palabras consecutivas, interjecciones, etc.
Habilidad morfo-sintáctica:
La razón de verbos conjugados con respecto a no conjugados.
Patrones error: patrones especificamente diseñados para encontrar algunos errores. Se cuentan tuplas de bigramas de la oración que sirven para detectar problemas. Por ejemplo (det, noun_pl) o (det_pl, noun), detectar un determinate singular con un sintacma en plurar o viceversa.
Sentencia complejidad:
La longitud de la uterancia
Número problema de sílabas por palabras
El número de uterancias por oración
Comprensión de lectura
EVALUACIÓN: Data sets
Encontrar un corpus es muy difícil. Pero está el:
Conti-Ramsden 4 from CHILDES. Edad promedio de los niños es 14.5.
Paradise data set (study on otitis media)
Media de edad 6 años
Una muestra obtenida aleatoriamente. Las narraciones se toman mientras el niño juega con los padres. Se obtuve este corpus para obtener el gold-standard.
Para evaluar se utilizó el baseline de un score de tres medidas:
MLU in words
NDW
TNU
Se utilizan sensitivity, specificity, an LR+ (qué tal probable es que la métrica diga que tiene un problema efectivamente la tiene), and LR- (que prob. de que un niño diagnosticado con problemas, realmente no lo tenga).
ANÁLISIS DE LAS CARACTERÍSTICAS
Entre las medidas que funcionan bien están: probabilidades de los ML.
Selección de características: número total de palabras, longitud promedio de las uternacias (MLU), Flesch-Kincaid scores, sustantctivo y 1ª y 3ª persona singular dle verbo, proniombre personal y verbo, las formas verbales, ML.
LANGUAJGE ANALISIS IN BILINGUAN CHILDREN
Problemas:
- No hay test estándars para los niños bilingües
- No hay disponible estudios patólogos bilingües
- Desconocemos la trayectoria de los niños bilingües
- El desafía es distinguir entre un patrón de desorden y un patrón de diferente lenguaje.
Es más crítico hacer avances en los niños bilingües. Hay que conocer el estado (si está balanceado bilingüe o tiene el idioma destacado es español). Si el problema es que el niño, su lenguaje predominante es el español, se deben evaluar en español. Cosa que en eeuu no se hace.
Se hacen cuestionarios para determinar la cantidad de lenguajes que el niño escucha y produce en cada idioma. En base a esto hay:
- Spanish dominant SD
- english dominant (ED)
- Balanced bilingual (BB)
TNW = El número total de palabras
TNU = El número total de uterancias
Características usadas:
1. Probalbidad de los modelos del lenguaje (using POS tags):
2. Fluidez
..
4. Información demográfica
5. Caracterśiticas mofo-sintáctica
6. Compleidad
7. Rapidez
CONCLUSIONES
Los niños con problemas no les afecta ser bilingÜes.
TRABAJOS FUTUROS
- Modelar el discurso
- Desarrollar analizadores sintácticos para la mezcla de idiomas