CRITERIA: Criterios de Evaluación para Corpus de Calidad en Inteligencia Artificial

En los últimos años, el desarrollo de sistemas de inteligencia artificial (IA) basados en modelos de lenguaje de gran tamaño (Large Language Models, LLMs) ha transformado la forma en la que nos relacionamos con los datos textuales, así como las posibilidades de generar, comprender y analizar lenguaje humano a gran escala. En el ámbito de las Humanidades Digitales y del Procesamiento del Lenguaje Natural (PLN) estos modelos han demostrado un rendimiento sin precedentes en tareas como la generación de texto, la traducción automática, el resumen, la clasificación semántica o la respuesta automática a preguntas. Sin embargo, este éxito ha venido acompañado de un reto fundamental que todavía carece de una solución estandarizada y sistemática: la calidad de los datos empleados para entrenar estos sistemas.

Tradicionalmente, el enfoque predominante en el entrenamiento de modelos de lenguaje se ha centrado en la escala. El acceso a grandes volúmenes de datos ha sido considerado durante años como una ventaja competitiva, y todavía hoy constituye una pieza clave del diseño de LLMs. No obstante, estudios recientes han evidenciado que el rendimiento de estos modelos no depende únicamente de la cantidad de datos, sino que está estrechamente relacionado con su calidad, diversidad y relevancia contextual (Zhou et al., 2023). En este sentido, la calidad de los corpus se perfila como un factor crítico, tanto desde el punto de vista técnico como ético, que puede incidir directamente en el comportamiento, la robustez y el sesgo de los modelos.

El acceso masivo a datos lingüísticos digitales ha eliminado, en gran medida, las barreras de disponibilidad de contenido textual. Fuentes abiertas como CommonCrawl1 ofrecen billones de palabras extraídas de la web, lo que ha permitido el entrenamiento de modelos con un volumen de datos sin precedentes. Sin embargo, estos corpus de origen web suelen estar plagados de contenido redundante, irrelevante, sesgado, de baja calidad lingüística o incluso tóxico. Como advertía Austermühl (2001), obtener datos en línea es relativamente fácil, pero identificar información precisa y pertinente sigue siendo un proceso complejo. Esta observación, que ya era válida hace dos décadas, resulta hoy más vigente que nunca en el contexto de los LLMs y el PLN.

Para hacer frente a esta problemática, la comunidad investigadora ha comenzado a desarrollar corpus refinados que aplican filtros estrictos de limpieza como C4 (Raffel et al., 2020), RedPajama (Together Computer, 2023), SlimPajama (Soboleva et al., 2024) y DCLM-baseline (Li et al., 2024). Estos filtros eliminan contenido duplicado, ruido no textual, spam, textos ofensivos, datos de baja calidad lingüística y documentos irrelevantes, con el fin de transformar datos crudos en corpus limpios, útiles y éticamente responsables para el entrenamiento de modelos. Más recientemente, conjuntos de datos como RefinedWeb
(Penedo et al., 2023), FineWeb (Penedo et al., 2024a) y FineWeb-2 (Penedo et al., 2024b) han marcado nuevos hitos en la construcción de corpus optimizados, mediante pipelines modulares que buscan garantizar la calidad final del corpus. Sin embargo, no existe un consenso claro ni una metodología estándar que defina y mida de manera sistemática la calidad de un corpus, lo que dificulta la evaluación objetiva y reproducible de estos recursos.

Además, es importante subrayar que la mayoría de estos desarrollos están diseñados casi exclusivamente para el inglés, tanto en términos de cobertura lingüística como de los criterios de calidad empleados. Como consecuencia, el ecosistema de recursos de entrenamiento para otras lenguas, entre ellas el español, resulta considerablemente más limitado, menos sistematizado y, en muchos casos, carente de herramientas automatizadas de evaluación de calidad. Esta desigualdad de recursos tiene implicaciones significativas para el entrenamiento de modelos multilingües, así como para el desarrollo de aplicaciones lingüísticas en contextos hispanohablantes. La escasez de corpus curados, es decir, aquellos que han sido sometidos a procesos de limpieza, estandarización e incluso corrección de errores, específicamente en español, tanto en el ámbito general como en dominios especializados, limita el rendimiento de los modelos, incrementa los sesgos y reduce su capacidad de generalización.

Dado este escenario, resulta fundamental desarrollar un marco metodológico sólido, transparente y reproducible que permita evaluar la calidad de los corpus lingüísticos desde una perspectiva computacional. Este marco incluirá criterios claros y métricas específicas que faciliten analizar el impacto de la calidad del corpus en el comportamiento y rendimiento de los modelos entrenados. Para ello, se adoptará un enfoque mixto que combinará la formulación teórica de los criterios de calidad con su validación empírica, mediante experimentos con modelos entrenados sobre corpus con distintos niveles de calidad.