De Alan Turing a ChatGPT

Posted on 11 Apr 2023

(Artículo original publicado en Realitat: D’Alan Turing a ChatGPT. (catalán))

En 1936, Alan Turing publicó un artículo que marcó un antes y un después en la percepción de lo que las máquinas podrían alcanzar. Turing abordó la cuestión de la computabilidad, definiendo como computables aquellos problemas matemáticos solucionables a través de un proceso paso a paso, un algoritmo. Turing nos daba una noticia mala y una buena. La mala es que ciertos problemas matemáticos carecen de solución algorítmica. La buena es que para el resto de problemas sí existe un algoritmo que lo soluciona y este algoritmo es reproducible por un dispositivo mecánico con un conjunto de operaciones muy básicas llamado “máquina de Turing”.

La creación de las primeras computadoras, equivalentes prácticos de la máquina de Turing, inspiró a algunos científicos a plantear si el pensamiento humano podría replicarse de manera algorítmica. Así, en el verano de 1956, un grupo de diez científicos se congregó en el Dartmouth College para explorar la posibilidad de simular cada aspecto de la inteligencia mediante máquinas. A este programa de investigación le dieron el nombre de “Inteligencia Artificial” (IA)

El campo de la IA nació de varias “escuelas de pensamiento” que han ido evolucionando y ramificándose en este medio siglo. Curiosamente, la escuela que actualmente domina el campo, la conexionista, hereda mucho de una rama, la cibernética, que no fue invitada en el encuentro de Dartmouth debido a rivalidades entre su representante, Norbert Wiener, y los organizadores del encuentro. La cibernética es el estudio de sistemas automáticos que utilizan mecanismos de feedback para mejorarse a si mismos.

La escuela conexionista debe su éxito a la idea de usar “redes neuronales artificiales” como el mecanismo para aprender a través de ese feedback. Las redes neuronales se inspiran de las conexiones neuronales del cerebro humano. Una neurona se activa si un número suficiente de neuronas conectadas a ella también se activan. Más exactamente, cada neurona va ajustando la importancia que le da a la activación de cada vecina. Estos ajustes se van actualizando a lo largo y ancho de la red hasta que las neuronas que están en la capa de salida generan la salida correcta para los ejemplos dados en la entrada. A este protocolo se le llama “entrenamiento”. La idea de las redes neuronales ya existía en los años 70. Su éxito rotundo en la última década se debe a dos elementos clave. Por un lado, la disponibilidad de potencias de cálculo que permiten redes neuronales gigantes que apenas caben en la memoria de un sólo ordenador. Por otro lado, la disponibilidad, gracias a internet, de cantidades estratosféricas de ejemplos con los que “entrenar” estas redes neuronales gigantes. Desde 2010, las redes neuronales gigantes (técnicamente llamadas profundas) alcanzan rendimientos a niveles humanos en tareas como el reconocimiento de imágenes e incluso la traducción automática.

En 2017 empieza a gestarse la siguiente revolución en el campo de la IA. Un grupo de investigadores de Google propone un tipo de red neuronal llamada “transformadores”, cuya principal novedad era que podía entrenarse en miles de procesadores en paralelo, permitiendo así multiplicar la cantidad de datos de entrenamiento. Es aquí cuando se produjo un descubrimiento que nadie esperaba. Otro grupo de investigadores de OpenAI entrenaron a una red neural para comportarse como lo que se conoce como un “modelo de lenguaje”, que consiste en la simple tarea de predecir la siguiente palabra en un corpus textual. Es decir, si a la entrada del sistema le presentamos la frase “el perro de San Roque no tiene”, le daremos feedback positivo si la salida es “rabo” y feedback negativo si es cualquier otra cosa. Observaron que, cuando el corpus era suficientemente grande y diverso, la red acababa de alguna manera codificando en su interior una representación del mundo, lo que permitía usarla para muchas otras tareas para las que no había sido explícitamente entrenada: resumen de textos, explicar chistes, razonamientos lógicos. A estos modelos les dieron el nombre de Transformadores Generativos Pre-entrenados (GPT).

En 2022, los investigadores de OpenAI añaden dos nuevas etapas de entrenamiento a su último modelo GPT-3, una consistente en presentarse ejemplos de preguntas y respuestas, y una última donde evaluadores humanos (trabajadores nigerianos) valoraban numéricamente tales respuestas. Dado que gracias a esto el modelo adquiría capacidades de dialogar fluidamente con los usuarios, le llamaron ChatGPT. La calidad de las respuestas dadas por ChatGPT, ha sorprendido incluso a sus propios creadores, que han advertido de la necesidad de un marco regulatorio para limitar los malos usos de estas tecnologías.

Pocos meses después de la salida de ChatGPT, Microsoft se convirtió en el mayor inversor de OpenAI con un 49% de la propiedad de la empresa. El resto de gigantes tecnológicos como Meta y Google también han sacado sus propias versiones (Llama y Gemini), y se van multiplicando las iniciativas de software libre que intentan entrenar modelos similares para ponerlos a disposición de cualquiera.

Lo que hace vislumbrar ChatGPT no es simplemente un sistema de IA más acotado a ciertas aplicaciones. La potencialidad de este tipo de modelos nos ha puesto a las puertas de una revolución tecnológica con consecuencias sociales y económicas difíciles de predecir, y quizás del orden de la máquina de vapor o de internet. Entre las posibilidades que alumbran estos sistemas se incluyen una nueva ola de automatización de procesos, o asistentes digitales para todo tipo de tareas, desde el ámbito profesional (la mayoría de programadores informáticos ya usan código generado por estos sistemas en su día a día), al doméstico.

Los verdaderos retos de la IA

Nuestra tendencia antropomórfica así como muestras filias y fobias alimentadas por la ciencia ficción han generado debates sobre si estas máquinas serán capaces de sentir como nosotros, o incluso revelarse contra nosotros. Incluso lingüistas como Chomsky se esfuerzan en dejar claro que ChatGPT no piensa de verdad (https://sinpermiso.info/textos/la-falsa-promesa-de-chatgpt). Pero sin minimizar la importancia de las nuevas perspectivas que estos avances puedan aportar a campos como la filosofía, la lingüística, o la psicología, en cierto sentido preguntarse si la máquina piensa como un humano es como preguntarse si el submarino “nada” como un pez. Que la máquina no piense como un humano no disminuye los efectos que su irrupción va a tener en nuestras sociedades.

Desde la última revolución de internet el sueño de una utopia de compartir conocimiento convive (peor que mejor) con la pesadilla monopolística y de la concentración de poder que ya veíamos en el mundo analógico. De la misma manera, la revolución de la IA viene preñada de utopía y de distopia. Más allá de disquisiciones metafísicas sobre qué es la inteligencia o si la humana es la única inteligencia posible, los verdaderos retos que plantea esta nueva nueva tecnología son mucho más tangibles.

El control de los medios de producción (GPUs)

Los medios de producción en la era de los grandes modelos de lenguaje (GML) son unos procesadores especiales llamados GPU fabricados casi exclusivamente por NVIDIA. Para entrenar ChatGPT, OpenAI utilizó 1000 procesadores GPU durante un mes, lo que entre hardware y electricidad le supuso unos 4 millones de dólares. Se prevee que las siguientes versiones cuesten unos 2500 millones de euros (https://mpost.io/gpt-5-training-will-cost-2-5-billion-and-start-next-year/). Son muy pocas las instituciones públicas o privadas que pueden permitirse este tipo de gasto. La mayor compra de GPUs hasta la fecha la ha anunciado Princeton, que ha conseguido 9 millones de dólares para comprar 300 GPUs, muy por debajo de las capacidades de la industria privada. Aún así, Princeton ha tenido suerte, dado que NVIDIA está rechazando los pedidos de la mayoría de clientes para centrarse en las necesidades de los grandes.

La concentración de estos medios de producción en unas pocas manos plantea problemas como la opacidad de sus modelos. Al no tener acceso a los datos usados por estas empresas para entrenar sus modelos, no podemos analizar bien los sesgos que interiorizan a partir de estos datos. Así, los modelos pueden acabar afirmando cosas como “el hombre es a un médico lo que una mujer a una enfermera”, o que una persona negra que aperece en una foto vestido de civil en la puerta de la cárcel es un presidiario y una persona blanca en el mismo contexto es un funcionario de prisiones. El control de este tipo de sesgos es imprescindible a medida que estos modelos se vayan incorporando en procesos de toma de decisiones en campos como los recursos humanos, la medicina, o la justicia.

La creación de modelos de software libre, abiertos y transparentes es la única manera de garantizar un control y un acceso democrático a estos.

El robo de la materia prima (datos)

Si las GPU son el medio de producción, los datos son la materia prima que estos medios acaban transformando en mercancia-conocimiento. Los modelos de IA se entrenan utilizando grandes volúmenes de datos, que a menudo incluyen textos, imágenes, y otro tipo de contenidos producidos por humanos sin ánimo de lucro. Desde respuestas en foros hasta vídeos de Youtube, pasando por código informático compartido con la comunidad para su libre uso.

Este aprovechamiento de la información pública y creada por usuarios plantea un dilema ético y legal. Algunos ilustradores y artistas gráficos ya han expresado preocupaciones sobre cómo las grandes empresas de tecnología utilizan sus obras para entrenar modelos de generación de imágenes sin su permiso explícito ni compensación. Estas preocupaciones se han intensificado con la creación de modelos capaces de generar arte en estilos que imitan a artistas específicos.

Esta apropiación no consentida de lo común recuerda a los procesos de acumulación primitiva del capital mediante la apropiación de tierras comunales, en el sentido de que tal apropiación es forzada y que, una vez conseguida, va a ser difícil deshacerla.

Los impactos medioambientales

Si, como explica el periodista Guillaume Pitron en su libro “El infierno digital”, internet ya consume un 10% de la electricidad mundial y supone un 4% de las emisiones de CO2, es de esperar que los grandes modelos de lenguaje hagan aumentar rápidamente esta factura. Entrenar un modelo como ChatGPT consume lo mismo que 1000 hogares norteamericanos en un año (10GWh). Una vez entrenado cada consulta de un usuario consume diez veces más que una consulta a Google (un total de 1GWh al día). Sin contar con la generación de sonido, imágenes, y sobretodo video, capacidades que ya han empezado a incorporarse a estos sistemas.

Actualmente hay una carrera hacia modelos más energéticamente eficientes. Esto podría incluso disminuir las emisiones globals de CO2 si la IA se utilizara para optimizar las cadenas de producción actuales. Sin embargo, en el marco de la sociedad de consumo es de esperar que se cumpla de nuevo la paradoja de Jevon, donde la mejora en la eficiencia en el uso de un recurso aumenta el consumo total de ese recurso.

Plusvalor

La incorporación de los modelos de lenguaje es las cadenas de valor ya está incrementando la productividad. Como toda tecnología precedente, no podemos esperar, que este aumento de productividad revierta en una disminución de la jornada laboral o en un incremento salarial. Al contrario, los accionistas ven en esta tecnología una nueva oportunidad de reducción de costes. El gremio de las traductoras, por ejemplo, donde abundan los trabajadores autónomos, ya está viendo como las agencias no sólo esperan traducciones más rápidas, sino que están presionando las tarifas a la baja.

La batalla que se plantea es, de nuevo, para evitar una nueva fuente de plusvalor para los accionistas, como mínimo por la via de los impuestos. De lo contrario, el robo sería doble ya que la inmensa mayoría de los avances que han desembocado en los modelos actuales de IA han sido financiados por fondos públicos.