Los secretos de los Modelos de Lenguaje de Gran Tamaño

Los Modelos de Lenguaje de Gran Tamaño (LLM) son herramientas avanzadas de Inteligencia Artificial, cuyas principales características han sido previamente abordadas en el siguiente artículo. Sobre dicho análisis, se profundiza ahora en la estructura interna y el funcionamiento de estos modelos, destacando su capacidad para procesar enormes cantidades de datos mediante redes neuronales artificiales y técnicas de aprendizaje automático.

Estructura de los LLM

En el corazón de un LLM se encuentra una red neuronal artificial, un sistema matemático inspirado en el cerebro humano. Estas redes están compuestas por “neuronas” interconectadas que procesan y transmiten información. Gracias al aprendizaje automático, estas neuronas pueden llegar a identificar patrones complejos en grandes conjuntos de datos. Pero, ¿qué necesita y cómo funciona uno de estos modelos en la práctica?

Principalmente los modelos parten de dos elementos fundamentales que vertebran toda su estructura:

1. Datos: los LLMs requieren una ingente cantidad de datos de distinto tipo (datos de acceso público, web scraping, datos sintéticos, libros, artículos o incluso la compra de bases de datos ya estructuradas para estas tareas) que son procesadas por algoritmos.

Para hacernos una idea del tamaño de las bases de datos con las que trabajan los modelos, se estima que GPT-4, el predecesor del último de modelo OpenAI GPT-4.o, utilizaba una base de datos de 1 petabyte o, si hablamos en cuanto a número de tokens, 13 billones de tokens. En lenguaje más común, estas cantidades equivalen a 11.000 películas en 4k, 500 mil millones de páginas de texto o 15.000 años de música.

2. Método de aprendizaje: el entrenamiento es la fase más laboriosa del proceso de creación de los LLM. Para poder conocer la capacidad de procesamiento de estos modelos durante la fase de entrenamiento, se utiliza una medida que son los FLOPS (operaciones de coma flotante por segundo) la cual hace referencia al número de cálculos matemáticos que puede hacer una computadora por segundo. Pese a que el resultado del entrenamiento no sea enteramente dependiente de capacidad de procesamiento, esta unidad juega un papel importante y su aumento durante los últimos años ha permitido una mejora considerable de los resultados que ofrecen.

La mejora de las técnicas de aprendizaje automático de los modelos y el aumento de su capacidad de procesamiento durante los últimos años han propiciado que incluso se haya superado la proyección estimada por la Ley de Moore.

La Ley de Moore es una teoría empírica que estima que cada 2 años se duplica el número de transistores en los microprocesadores. Esta Ley hace referencia a la capacidad de procesamiento de los ordenadores y viene a indicar que si hoy en día un microprocesador está compuesto por 10 millones de transistores y puede procesar 1 millón de parámetros en un segundo, dentro de dos años estará compuesto por 20 millones de transistores y podrá procesar 2 millones de parámetros por segundo.

Funcionamiento de los LLM

Al realizar una pregunta a una aplicación de IA, ésta entrega una respuesta fruto de todo el proceso de entrenamiento y de refinamiento que ha recibido. A modo de simplificación, la respuesta que ofrece un modelo se basa en la coincidencia probabilística de entre cada una de las palabras del prompt y las que se encuentran en su base de datos. Por ello, cuando hablamos de estos modelos hay que tener presente que se trata de modelo de lenguaje y no de conocimiento.

Los pasos que realiza un LLM para proporcionar un resultado son los siguientes:

1. Como los algoritmos de aprendizaje de los LLM procesan números, la primera tarea que realizan es la conversión del texto de las bases de datos en tokens numéricos que pueden ser posteriormente procesados y analizados por los modelos. En la práctica, la conversión se traduce en la fragmentación del texto en pequeñas porciones que pueden ser parecidas a las sílabas de las palabras.

2. Posteriormente, el modelo observa el contexto en el que se utiliza cada uno de esos tokens en la base de datos, comparando las coincidencias o la proximidad con el resto de tokens y agrupando los resultados con base en dichos parámetros. Por ejemplo, si una palabra aparece muchas veces antes o después de otra, la proximidad entre ellas es alta y el modelo le otorgará mayor importancia.

Desde el año 2017, los LLM utilizan una arquitectura llamada Transformer que fue impulsada por investigadores de Google cuando publicaron una innovadora metodología que ha servido de base para todos los modelos de IA Generativa. Transformer es una arquitectura neuronal que utiliza un mecanismo denominado “self-attention” para mejorar el entendimiento del lenguaje. Previamente a su introducción, los modelos únicamente eran capaces de determinar la probabilidad secuencial de una palabra según su posición anterior o posterior a una única palabra (de forma similar al teclado predictivo de nuestros dispositivos móviles). Esto propicia que el resultado ofrecido sea incompleto o inconexo en la mayoría de los casos.

Con la introducción de Transformer, la relación se determina respecto de todas las palabras, mejorando sustancialmente el contexto del resultado que se ofrece por los modelos e incluso llegando a “entender” diferencias de significado en palabras polisémicas.

3. Gracias a dicha arquitectura el modelo construye varias posibles respuestas completas a través de múltiples tokens, basándose en el resultado más probabilístico en su conjunto y no solo tomando como referencia la siguiente palabra o token a incluir en la respuesta. Como se puede observar, los resultados que se obtienen por este método son más precisos.

Riesgos

Como se ha mencionado previamente, los LLM son modelos de lenguaje, no de conocimiento, es decir interpretan lenguaje natural generando outputs de diferente tipo, texto, imagen, música o vídeo basado en el prompt proporcionado pero no “comprenden” el significado como haría una persona. Por ello todo usuario debe tener en cuenta que:

  • Los LLM no realizan una función de búsqueda precisa o exacta entre los datos que poseen e incluso si lo hicieran, esta información podría estar desactualizada. Por lo que no  su precisión como motores de búsqueda o como herramientas de cálculo sino como generadores de contenido nuevo. Si un modelo ha sido entrenado con datos hasta mediados de 2024, será incapaz de ofrecer información actualizada sobre los resultados electorales de EE.UU. en la segunda mitad de ese año.

  • El ejercicio de cálculo probabilístico que hemos explicado devuelve un resultado que no tiene por qué ser cierto. De hecho, puede ser totalmente ficticio pero verosímil (lo que se ha denominado como “alucinaciones”) y son una característica recurrente en los sistemas de IA Generativa debido a la forma en la que generan una respuesta. Un ejemplo claro de ello es que los modelos son capaces de inventarse un link, una referencia a cierta jurisprudencia o incluso una cita literal.

Hacia dónde pueden evolucionar los modelos

Cada una de las nuevas versiones de los modelos se ha centrado en: mejorar la capacidad de procesamiento, poner a disposición de los usuarios resultados multimodales, aumentar la cantidad de información con la que han sido entrenados, reducir el número de alucinaciones y en las últimas versiones mejorar significativamente la capacidad de “razonamiento” de los modelos. Las principales compañías tecnológicas compiten de forma abierta, lanzando nuevos modelos cada pocos meses para intentar posicionarse en la vanguardia del desarrollo. Recientemente, la compañía china DeepSeek se ha unido a esta competición al lanzar la última versión de su modelo “DeepSeek R-1”, el cual asegura estar a la par del último modelo de OpenAI, pese a haber sido entrenado con menores recursos económicos. Este hito puede suponer un punto de inflexión en la competencia que ha sido hasta el momento dominada por empresas localizadas en los EE.UU.

Más allá de esta tendencia de mejora esperada para un sistema tecnológico, a futuro muchas de las compañías que desarrollan LLM han puesto sus esperanzas en poder desarrollar Inteligencia Artificial General (“AGI” por sus siglas en inglés). Tradicionalmente, AGI ha hecho referencia al punto en el que la IA puede realizar tareas de igual o mejor forma que los humanos. Pese a ello, recientemente algunas compañías como OpenAI y Microsoft han redefinido este concepto, vinculándolo a un momento en el que estas tecnologías no solo alcancen capacidades humanas, sino que también sean capaces de generar 100.000 millones de dólares en beneficios.

En este contexto, la evolución de los modelos se enfocará en una mayor accesibilidad y personalización, ajustándose a las necesidades específicas de usuarios y empresas. Esto incluirá desde herramientas más intuitivas para el público general hasta soluciones especializadas diseñadas para abordar problemas concretos en sectores como la atención médica, el aprendizaje automatizado y la gestión empresarial.


atoca: