El colapso del modelo de IA: Cómo el abuso de LLMs contribuye a la Teoría del Internet Muerto.

Arjan Shahani
Feb 3
10 min read

Updated: Feb 5

La calidad del contenido en internet va en picada y se reproduce rápidamente. Además, los modelos de inteligencia artificial se entrenan con base a esos malos insumos y por ende, arrojan peores resultados que se suman a la cantidad de contenido pobre de manera cíclica y expansiva… pero hay buenas noticias (te lo prometo).

Portada del artículo "El colapso del modelo de IA. Cómo el abuso de LLMs contribuye a la teoría del internet muerto"

Créeme que lo entiendo: es muy tentador decirle a ChatGPT que escriba tu próximo reporte, tu siguiente análisis financiero o incluso, pedirle que te ayude a escribir un ensayo de opinión, un artículo de expertise o hasta el entregable completo de tu proyecto de consultoría.

En las próximas líneas te explico por qué:

Los LLMs (large language models) nos han asombrado e incluso generado un falso sentido de credibilidad a través del uso de probabilidad estadística para predecir construcciones gramaticales libres de errores. Y la rapidez con la que nos dan respuestas a dudas que tenemos, muchas veces bastante acertadas, ha hecho que muchos de los usuarios confundan “inteligencia artificial” con “verdad”.

También hay que aceptar que muchos hemos caído en la trampa de ceder nuestra creatividad y responsabilidad de autoría, en función de la facilidad y la velocidad.

No tiene por qué darnos vergüenza; todas estas cualidades de la IA son asequibles y sería arrogante pensar que el ser humano tiene la capacidad mecánica y mental de procesar y plasmar textos ante un prompt con la elocuencia y velocidad de un agente LLM que consume en promedio 0.24 horas-watt y 0.26 litros de agua para darte la razón.

Estupidificación de los modelos de Inteligencia Artificial.

El problema es que mientras sigamos en este patrón, existe un alto riesgo de que en conjunto, estaremos trazando un camino muy poco prometedor para los modelos de inteligencia artificial mismos. Es decir, el uso indiscriminado de estas herramientas para generar contenido llevará a una espiral de estupidificación de los mismos, un proceso técnico que muchos expertos llaman el colapso del modelo de IA. ¿Y por qué debería de importarte? Porque si entiendes la premisa y reconoces la probabilidad de que caminemos en dicha dirección, se abren muchas posibilidades para ti, para tu marca y tu proyecto.

Te lo explico, vamos por partes:

La generosidad del término “inteligencia artificial”

“La inteligencia artificial me lo dijo…” es un término que he escuchado más y más a lo largo de los últimos meses. Refleja que así como cuando tu abuelo juraba que algo era verdad porque “me lo mandaron por el whats”, más y más los usuarios están confiando ciegamente en lo que les arroja de respuesta un prompt de Gemini, ChatGPT, Claude y (holy shit) ¡hasta Grok! Hay una humildad enorme en confiar en el medio a raíz de nuestras propias limitaciones.

Cuando era estudiante, tuve el privilegio de formarme a través de modelos de pensamiento crítico. Maestras y maestros a quienes guardo en la más alta estima me enseñaron a calificar, validar y cuestionar fuentes de información. Después aprendí sobre eco chambers y sesgos de confirmación… y finalmente, por simple curiosidad profesional y a pesar de no poder jactarme de ser un experto en informática ni sistemas computacionales, me di a la tarea de entender CÓMO es que un modelo de LLM se entrena y qué procesos utiliza para llegar a generar una respuesta elocuente.

“Inteligencia”, por definición de la RAE, es la capacidad de entender, comprender y resolver problemas adaptándose eficazmente al entorno mediante habilidades cognitivas como el aprendizaje, la memoria y el razonamiento. Y bajo esta definición, es que quiero retar nuestro entendimiento y confianza en los outputs de la inteligencia artificial, reconociendo que la inteligencia humana también tiene múltiples fallas pero buscando que entendamos la diferencia de raíz.

Si bien los LLMs sí utilizan lo que podemos llamar aprendizaje y DEFINITIVAMENTE pueden presumir mayores capacidades de memoria que los humanos, a la fecha su incapacidad de razonar y la cualidad humana no clonable de la creatividad, los hace mucho más prestos a errar que las opiniones expertas. Los LLMs tienen capacidad de generar outputs pero no han avanzado en términos de poder cuestionarse a sí mismos su validez o certeza. Asumen que lo que generaron es correcto… y si se los cuestionas, inmediatamente abandonan esa asunción y otorgan una respuesta distinta. No quiero sonar como disco rayado así que te refiero a mi artículo en el que hablo de los contenidos mermados por error y alucinación a los que estamos expuestos hoy en día con los LLMs.

Diagrama hecho por Level Up Coding, donde trazan el aprendizaje de los LLMs. — Crédito: Level Up Coding.

Los LLMs están entrenados para procesar un prompt del usuario y con base a una serie de instrucciones y pasos muy cuidadosamente diseñados, valerse de inmensas cantidades de data que han recibido y que está disponible en distintos canales digitales. Y utilizando modelos matemáticos y probabilidad estadística, buscan generar una respuesta coherentemente construida y una resolución. Para llegar a su respuesta se valen de un volumen impresionante de contenido, lo disgregan, lo estructuran y lo presentan. Y muchas veces aciertan… pero ¿alguna vez has retado la respuesta que te dan? ¿Alguna vez le has dicho a ChatGPT “No, tu respuesta está mal y estás siendo sumamente conservador en tu cálculo? Como lo decía en el párrafo anterior, el comportamiento que esto detonará es que el LLM Inmediatamente recalibrará su respuesta, aceptando haber estado equivocada y generando nuevos valores. Porque no tiene capacidad de razonar y confiar en su razonamiento.

Mi punto al volver a hablarte de las limitantes de los LLMs en esta ocasión, es asegurarme de que en principio entiendas por qué cuando alguien dice “La inteligencia artificial me lo dijo”, está pecando de confiar de más en modelos predictivos y no generadores de verdad.

Siguiente punto:

¿Dead internet o dumber internet? El colapso del modelo de IA

No podemos asignar la culpa completa del concepto de “dead internet” a los LLMs exclusivamente… pero sí su acelerada tasa de crecimiento.

Si no estás familiarizada(o) con el concepto de “dead internet”, es un término que empezó a cobrar tracción a mediados de los 2010s y que se refiere generalmente a tres conceptos clave:

La proliferación de los bots haciendo creer que la mayoría de las interacciones en canales digitales y el tráfico a sitios web no es generado por humanos reales.
El contenido algorítmico y generado por IA, principalmente a través de imágenes y video, deepfakes y artículos automatizados.
La erosión de las conexiones humanas por la falta de autenticidad en medios digitales.

Los granjas de followers existían desde mucho antes de que los LLMs se presentaran ante sociedad y es por eso que digo que no son los únicos victimarios en el asesinato del internet PERO a continuación te platico por qué insisto que la IA sí es responsable por acelerar el ritmo de la muerte anunciada.

Una imagen hecha con IA, de un robot blanco escribiendo en una computadora. — Artículos de "opinión" y supuesto expertise, pero hechos por Inteligencia Artificial.

Evidencia #1: Artículos de opinión y expertise solicitados a LLMs

Cada vez que alguien decide pedirle a su agente de inteligencia artificial preferido que le escriba su reporte, blog post, ensayo o similar, el volumen de contenido genérico en la totalidad del internet, crece. La proporción de contenidos auténticos, diferenciados, de valor y que ofrecen puntos de vista particulares por consiguiente, disminuye. De acuerdo a un reciente estudio por científicos de data experts de Graphite, a tan solo 12 meses de que ChatGPT saliera al mercado, los artículos generados por inteligencia artificial ya representaban 39% de los artículos publicados en internet y a inicios del año pasado, sobrepasaron el 50%... y la tendencia a la alza se ha mantenido.

Recientemente la plataforma Wix integró a sus servicios de hosteo web, un agente de IA que sin prompts particulares y con base tan solo a la industria en la que opera tu sitio, puede automatizar la publicación de artículos de interés en tu blog. Es decir, ya toma tan solo un par de clics de alguien que cae en tentación, que de manera automática seas corresponsable por arrojar contenido genérico y de bajo valor al volumen del internet.

Manos de una persona sobre un teclado, y palabras en muchos idiomas flotan a su alrededor.

Evidencia #2: Paralelismo de contenidos autotraducidos

En enero del 2024, un estudio publicado en Cornell University reveló los peligros a largo plazo del paralelismo de contenidos traducidos de manera automática con el uso de IA.

Te recomiendo plenamente leer el estudio completo pero aquí te comparto los hallazgos principales y lo que significan de manera secuencial para mi premisa de la pérdida de inteligencia:

En pro de llegar a más audiencias y gracias a lo conveniente que son estas herramientas, hoy estamos viviendo un crecimiento exponencial de contenido digital que está siendo auto-replicado a distintos idiomas. Desde sitios de internet completos, hasta ahora incluso video reels en YouTube e Instagram, estamos pidiendo a agentes automáticos que se den a la tarea de crear clones de nuestro contenido original en distintos idiomas.
Estas traducciones son útiles PERO definitivamente distan mucho de ser perfectas. Están plagadas de errores de contexto, traducciones literales y a veces por haber codificado incorrectamente el input, hasta generan construcciones sin sentido en otros idiomas. El estudio revela que el uso de traducciones autogeneradas en pro del multiparalelismo, a pesar de los avances, genera contenidos erróneos, con componentes de “alucinación” y construcciones gramaticales pobres. El siguiente punto es clave: en pro de la conveniencia, hemos decidido aceptar dichas imperfecciones.
El resultado es que en lugar de tener un solo punto de referencia de este contenido, ahora tenemos el original y sus clones defectuosos, que se suman como puntos adicionales de referencia de la misma pieza. Es decir, el mismo mensaje es dicho más veces en distintos idiomas pero ahora con menor calidad.
La CALIDAD de la data es crucial para pensar en el entrenamiento eficaz de un modelo LLM. Cuando se lanzó la primera versión de ChatGPT, había sido entrenado con base a un volumen ENORME pero finito de data (¿recuerdas que no podría referir a información actual porque sus bases eran hasta una fecha de corte?) pero conforme surgieron sus competidores y nuevas versiones, los modelos se han ido alimentando y entrenando en tiempo real de TODO el contenido disponible, de manera indiscriminada.

Espiral de luces haciendo un vórtex. — Espiral de contenido de bajo valor que lleva al colapso del modelo de la IA.

Estas evidencias, combinadas, me llevan a la siguiente conclusión:

Si cada vez hay más volumen de contenido de bajo valor por ser autogenerado y ese volumen es replicado automáticamente a distintos idiomas de manera indiscriminada, generando réplicas imperfectas del mismo, los LLMs tienen MÁS contenido pobre alimentando sus procesos de entrenamiento y sus bases referenciales. Esto genera el fenómeno conocido como “colapso del modelo de IA”, resultando en una espiral preocupante de contenido de menor valor… y el ciclo expansivo se repite y repite.

Ahora las buenas noticias para ti, tu marca y tu voz: Puedes usarlo a tu favor.

Las empresas que están a la vanguardia en la expansión de la inteligencia artificial saben TODO lo que te acabo de plantear e internamente están tomando acciones para, irónicamente, volverse su propio enemigo. Me explico con un par de ejemplos:

Mientras que Google invierte recursos para buscar que utilices más y más su IA de Gemini, en los resultados que te arroja tras un prompt, favorece referenciar contenidos NO generados por inteligencia artificial, como te lo explico en este artículo en el que hablo de la honestidad en la era de la inteligencia artificial o este otro en que te explico por qué no deberías usar ChatGPT para generar los contenidos de tu blog.
En pro de capturar esos contenidos auténticos y humanos, un estudio reciente de SEMRUSH reveló que los dos dominios más citados por ChatGPT, Google AI y Perplexity eran Reddit y LinkedIn, característicos por ser espacios en los que se genera mucho más contenido por humanos.

Modelo EEAT: Experiencia, Autoridad, Expertise y Confianza. — Modelo E-E-A-T para calificación de contenido.

Mientras que el modelo E-E-A-T de calificación de contenido siga siendo vigente (y debería de serlo porque responde a una lógica de mejor calidad esperada por el consumidor final), la proliferación de “dumber internet” le abre puertas enormes de posibilidades a quienes tengan la inteligencia real (no artificial) de identificarlas y hasta catalizarlas.

Si te aseguras que tu estrategia de Content Marketing no cae en la trampa de la autogeneración sino que privilegias el contenido de valor y auténtico, y además usas la inteligencia artificial de manera INTELIGENTE, tus outputs serán registrados por las mismas herramientas como más atractivos para el usuario final. No sólo esto, sino que tus mensajes en sí serán de mayor valor para tus audiencias y clientes potenciales. Es decir, tendrás MEJOR contenido que CONVIERTE más y RANKEA mejor ante buscadores y generadores de tráfico adicional.

Esto, además puesto en manos expertas, también implicará que tengas mejor data para alimentar tus esfuerzos de inbound marketing, como lo puede ser por ejemplo una campaña de Google Ads de Search o un proceso continuo de optimización de SEO y GEO de tu sitio web.

Adicionalmente, conforme la proporción de contenidos auténticos, reales y humanos continúe reduciéndose, la escasez valorará aún más tu estrategia que favorece la utilidad y valor de tu output. Y no te lo digo como hipótesis no probada.

En Werko Marketing Solutions hemos visto en carne propia el rollout de esta estrategia. Utilizamos inteligencia artificial en MUCHOS de nuestros servicios y entregables:

Aprovechamos las bondades de Machine Learning para optimizar desempeño y programación de contenidos en redes sociales;
Contamos con motores de auditoría de SEO que hacen uso de LLMs para construir reportes de métricas reales presentados de manera muy atractiva y claro que hemos utilizado Google en modo IA o LLMs como motores de búsqueda…
También en más de una ocasión hemos utilizado la IA de Adobe para hacer una corrección fotográfica o un retoque,
Y las herramientas de IA de nuestra plataforma de email marketing son en gran parte responsables por las altas tasas de apertura que tenemos y que por mucho sobrepasan la media del mercado

PERO la inteligencia artificial no es autora de 1% de nuestro contenido en artículos, copys para redes sociales o contenido del sitio web.

Gráfica en tablero de website indicando a la alza la visita de bot de IA al sitio web. — Nuestro sitio web tiene visitas diarias de bots de IA que llegan a consultar nuestro contenido porque cumple con altos estándares de E-E-A-T y no está generado por LLMs.

Además, hemos asegurado que el diseño de nuestro sitio web y su backend está pensado para ayudar a LLMs como ChatGPT, Gemini, Claude, Perplexity y otros a que visiten nuestro sitio web y hagan de nuestro contenido referencias de origen de sus respuestas a prompts de usuarios. Y la estrategia está dando resultados contundentes. Mes a mes estamos viendo (porque lo monitoreamos y trackeamos constantemente) incremento en tasas porcentuales de doble dígito en tráfico de agentes de inteligencia artificial al sitio web PERO también de tráfico humano. Nuestros rankings ante los diferentes LLM van a la alza y las métricas que nos arroja Google Search Console reflejan que cada vez más, aparecemos como página destino ante búsquedas reales de personas reales requiriendo servicios reales.

De igual manera, esta estrategia está sirviendo para que nuevos clientes potenciales lleguen a nosotros. En el mes pasado dos distintas cuentas me dijeron que llegaron a Werko Marketing Solutions “preguntándole a ChatGPT” y mientras veo que nuestros competidores (porque también los estamos volteando a ver constantemente) caen en la tentación de poblar sus canales con AI slop, celebro nuestro futuro promisorio… y me encantaría celebrar el de tu marca. Cuando quieras podemos platicar al respecto.