Para más noticias y novedades síguenos en nuestras redes:
Ing. David García Quintas
Dr. Ricardo Garzón Cárdenas
En los últimos años, la inteligencia artificial ha dejado de ser un recurso experimental para convertirse en una herramienta cotidiana en el ámbito jurídico. Los despachos, los organismos públicos y los tribunales utilizan modelos de lenguaje para redactar borradores, analizar grandes volúmenes de información, localizar precedentes, detectar contradicciones en declaraciones extensas y realizar tareas que antes exigían horas de revisión humana. Sin embargo, estos sistemas, por potentes que sean, comparten una limitación estructural: trabajan con enorme sofisticación, pero no aprenden mientras los utilizamos. Lo que saben está fijado en el momento en que fueron entrenados y difícilmente incorporan nueva información más allá de la ventana de contexto con la que operan.
El trabajo “Nested Learning: The Illusion of Deep Learning Architectures” propone una respuesta a esa limitación y abre una nueva conversación que afecta de lleno al mundo del Derecho . Su hipótesis central es tan provocadora como relevante: los modelos actuales parecen “profundos”, pero buena parte de esa profundidad es solo una ilusión arquitectónica. Aunque tienen múltiples capas, tan solo actualizan un nivel de aprendizaje, lo que los convierte, en la práctica, en sistemas estáticos que experimentan constantemente “el presente inmediato”. Esta falta de memoria adaptativa explica por qué los modelos pueden comportarse brillantemente en tareas generales, pero muestran dificultades para seguir el hilo de un expediente que evoluciona durante meses o para adaptarse a un estilo argumentativo específico de un litigio complejo.
Nested Learning (NL) propone un modelo diferente: un sistema capaz de aprender en múltiples niveles y en varias escalas temporales, más similar al funcionamiento de la memoria humana. Para la comunidad jurídica, esto no es un detalle técnico. Implica la posibilidad —y también el desafío— de contar con modelos que ajustan su comportamiento en tiempo real, que comprenden procesos largos y que responden de forma más estable y coherente a lo largo del ciclo completo de un caso.
El punto de partida del artículo es una crítica a la premisa que ha marcado toda la era de los transformers: la idea de que acumular más capas equivale a tener un aprendizaje más profundo y sofisticado. Los autores demuestran que, en realidad, la arquitectura típica del deep learning comprime todo su proceso de aprendizaje a un único nivel: un único flujo de optimización que se modifica durante el entrenamiento, pero que permanece congelado una vez el modelo pasa a la etapa de uso Si estos sistemas no parecen completamente estáticos y son capaces de seguir el hilo de una conversación se debe exclusivamente a su ventana de contexto, que actualmente está limitada a unos cientos de miles o poco millones de tokens (aproximadamente, palabras). Este es un tamaño adecuado para hilos de conversación casuales, mas no tanto para un proyectos de envergadura. A esto se debe también que toda nueva conversación sea tabula rasa.
La consecuencia es que, al igual que en los casos de amnesia anterógrada, el modelo recuerda un pasado lejano (el resultado de su entrenamiento inicial) y un presente cortísimo (la información que cabe en su ventana de contexto), pero tiene enormes dificultades para consolidar nueva información en su “memoria de largo plazo”. De ahí que, aunque pueda analizar cientos de páginas o identificar patrones complejos, no pueda integrar esa información de manera estable para próximos usos.
Nested Learning cambia esta arquitectura desde la raíz. En vez de ver un modelo como un sistema de capas apiladas, lo concibe como un conjunto de sistemas de aprendizaje anidados, cada uno con su propio flujo de actualización, su propio tipo de memoria y su propia “velocidad” de adaptación. Es, de alguna manera, una arquitectura que deja de ser monolítica y pasa a ser una especie de “organismo” con múltiples niveles de procesamiento.
Los autores conectan esta idea con la neurofisiología: no aprendemos a un único ritmo, ni con un único mecanismo, sino a través de procesos paralelos y secuenciales que operan en escalas temporales distintas: desde la memoria de trabajo de segundos hasta la consolidación sináptica de horas y la reorganización cortical de días o semanas. Ese modelo de múltiples frecuencias inspiró la noción de nested updates, es decir, actualizaciones anidadas en varios niveles del sistema.
Para entender NL sin caer en tecnicismos, conviene introducir una idea clave del artículo: la memoria asociativa. En términos simples, una memoria asociativa no almacena datos, sino relaciones: aprende que un elemento se vincula con otro, que ciertos patrones conducen a determinados resultados y que ciertas estructuras aparecen juntas en un flujo de información. Es exactamente lo que hacemos los juristas al trabajar con precedentes, doctrinas o líneas argumentales: buscamos relaciones y patrones, no datos aislados.
El artículo muestra que cualquier componente de un modelo —desde los optimizadores hasta las capas neuronales— puede interpretarse como una memoria asociativa. La consecuencia es profunda: los optimizadores dejan de ser mecanismos de cálculo y pasan a ser mecanismos de aprendizaje, capaces de almacenar información sobre el comportamiento del propio modelo y de modificarlo de manera flexible.
Esto permite algo que los modelos actuales no pueden hacer: aprender mientras procesan información nueva.
• Un nivel rápido del modelo puede aprender la estructura interna de un escrito judicial.
• Un nivel más lento puede aprender los modos argumentativos del abogado o del juez.
• Un nivel profundo puede consolidar patrones largos de interacción, equivalentes a un “estilo jurídico”.
Así se supera la rigidez típica del aprendizaje estático de los modelos basados en transformers, cuyo comportamiento depende exclusivamente de lo aprendido antes del despliegue.
Nested Learning formaliza esta idea mostrando que cada una de estas memorias tiene una frecuencia de actualización diferente, de modo que unas memorizan el contexto inmediato y otras consolidan la información de forma progresiva a lo largo del uso del sistema. El modelo deja de ser un edificio en altura para convertirse en un conjunto de cámaras interconectadas, cada una con su propio ritmo de respiración.
Las consecuencias para el Derecho son amplias y, en gran medida, inéditas.
Los modelos basados en NL podrían:
• Aprender el estilo argumentativo del propio abogado o de su contraparte dentro del mismo caso;
• Retener información sustantiva de expedientes extensos sin necesidad de reintroducirla manualmente cada vez;
• Detectar contradicciones, omisiones o patrones en declaraciones, peritajes o trámites provenientes de múltiples fuentes, incluso cuando la relación entre ellos no es inmediata;
• Adaptar su análisis conforme avanza un proceso oral, integrando en tiempo real lo que ocurre en sala.
En la práctica, esto puede transformar la manera en que se preparan audiencias, se construyen estrategias y se sistematizan argumentos complejos.
En juzgados y tribunales, Nested Learning puede aportar:
• Coherencia longitudinal: el modelo mantiene una memoria continua del expediente;
• Resistencia al olvido: nuevos documentos no diluyen el análisis previo;
• Capacidad de adaptar criterios: si una línea argumentativa o probatoria se revela especialmente relevante, el modelo puede reorganizar sus prioridades internas;
• Mayor estabilidad al generar minutas, borradores o análisis preliminares con criterios uniformes a lo largo del caso.
Esto abre el camino para asistentes judiciales verdaderamente contextuales, no solo buscadores inteligentes.
Pero también plantea retos que el Derecho no puede ignorar:
• ¿Cómo supervisar un sistema que aprende en varios niveles simultáneamente?
• ¿Cómo garantizar la trazabilidad de sus decisiones si parte del aprendizaje ocurre durante la interacción?
• ¿Cómo evitar que un modelo consolide patrones indeseados del usuario, como sesgos o prácticas deficientes?
• ¿Cómo delimitar la responsabilidad cuando el comportamiento del sistema se transforma con el uso?
Nested Learning abre enormes oportunidades, pero exige un marco serio de auditoría, transparencia y control.
El artículo presenta un modelo experimental llamado HOPE, que aplica directamente las ideas de NL y que introduce tres innovaciones centrales:
1. Aprendizaje auto-modificable: el modelo aprende a modificar su propio algoritmo de actualización, algo imposible en arquitecturas tradicionales.
2. Memoria continua en múltiples niveles: HOPE implementa memorias rápidas, medias y lentas, capaces de integrar información en horizontes temporales distintos.
3. Rendimiento superior en tareas de lenguaje y razonamiento, incluso frente a modelos de su misma escala basados en transformers.
HOPE ejecuta actualizaciones internas que recuerdan cómo el cerebro consolida información: una primera capa capta el contexto inmediato, una segunda lo estabiliza y una tercera lo integra en su funcionamiento general.
Para el Derecho, esto significa que los futuros modelos podrían:
• Mantener coherencia en expedientes de miles de páginas;
• Retener patrones argumentativos de un caso a lo largo de semanas;
• Adaptar su comportamiento a la evolución de un proceso judicial sin necesidad de reentrenamiento externo.
HOPE no es un producto comercial, pero anuncia una dirección hacia donde se moverá la IA avanzada aplicada al ámbito jurídico.
Nested Learning representa un cambio de paradigma: pasamos de modelos que solo responden a modelos que aprenden de la interacción jurídica en tiempo real. Esto abre la puerta a asistentes más adaptativos, más coherentes y más útiles para el ejercicio profesional, pero también obliga a repensar la supervisión, la transparencia y la responsabilidad en su uso.
Para los juristas, este cambio implica la necesidad de desarrollar una nueva forma de alfabetización tecnológica. No basta con saber usar herramientas: será necesario comprender cómo aprenden, qué memorizan, cómo consolidan información y bajo qué ritmos adaptan su comportamiento. La próxima generación de modelos no será simplemente más grande o más rápida: será más dinámica, más plástica y más cercana, en términos funcionales, a un interlocutor que aprende.
En un sistema legal que depende de la estabilidad, la coherencia y la razonabilidad, la llegada de modelos capaces de modificar su conducta a través del uso plantea oportunidades formidables, pero también responsabilidades profundas. Nested Learning inaugura este debate y anticipa una transformación que ya no es técnica, sino institucional: cómo convivirá el Derecho con sistemas que, como los juristas mismos, aprenden a múltiples niveles y en diferentes escalas temporales.