Los modelos de OpenAI y Anthropic mejoran, pero su estilo parece más plano

Los modelos de OpenAI y Anthropic están mejorando a nivel técnico, pero su estilo de escritura se siente más plano que antes. Se trata de una paradoja que muchos usuarios empiezan a percibir sin poder formularla siempre con claridad. Los benchmarks progresan, las capacidades de razonamiento se afinan y, sin embargo, algo parece haberse desvanecido en la textura misma de los textos generados. Este artículo explora este fenómeno, sus causas probables y sus implicaciones para cualquiera que utilice estas herramientas en su día a día.

Una paradoja muy real: más eficientes, pero menos impactantes

Basta con comparar los resultados de GPT-4 o Claude 3 con los obtenidos hace un año para notar una diferencia de tono. Las respuestas son más largas, están mejor estructuradas y son más fáciles de leer. Pero han perdido algo esencial: cierta singularidad, la voluntad de asumir riesgos en la expresión, una voz reconocible.

Esta observación, compartida por muchos profesionales del sector digital, fue resumida con precisión por el empresario Nav Toor en X (antes Twitter): las instrucciones (prompts) que funcionaban de maravilla hace seis meses producen hoy resultados menos satisfactorios. La escritura suena más uniforme; las ideas son más seguras, más consensuadas. El modelo parece haber aprendido a no decepcionar nunca, a costa de no sorprender jamás.

La búsqueda de la neutralidad como trampa estilística

Para entender este cambio, hay que analizar los procesos de entrenamiento. Los grandes modelos de lenguaje como GPT-4o o Claude 3.5 Sonnet se refinan después de su fase de preentrenamiento mediante técnicas como el RLHF (Aprendizaje por refuerzo a partir de la retroalimentación humana). Evaluadores humanos califican las respuestas y el modelo aprende a maximizar esas puntuaciones.

El problema es que los evaluadores humanos tienden a preferir respuestas legibles, educadas y sin asperezas. Una formulación audaz puede parecer incorrecta a un evaluador poco familiarizado con el contexto. Una metáfora original puede resultar vaga. Como resultado, el modelo converge hacia un estilo intermedio: aceptable para todos, memorable para nadie.

Esto es lo que algunos investigadores de IA denominan el «problema de la escritura mediana» (median writing problem): la optimización hacia la preferencia humana promedio produce una prosa mediocre en el sentido etimológico de la palabra, es decir, una prosa del medio.

La web como espejo deformante: la contaminación de los datos de entrenamiento

Un segundo factor agrava este fenómeno. Desde la explosión del uso de los LLM (grandes modelos de lenguaje) en 2023 y 2024, una proporción cada vez mayor del contenido publicado en Internet es generado por los propios modelos de IA. Artículos de blog, boletines informativos (newsletters), publicaciones en LinkedIn y páginas de productos: todo redactado parcial o totalmente por herramientas como ChatGPT o Claude.

Este contenido vuelve a ingresar al corpus de entrenamiento de las futuras versiones de los modelos. Entramos así en un bucle de retroalimentación estilística: el modelo aprende a imitar a una web que ya lo está imitando a él. Cada iteración homogeneiza un poco más el resultado. La escritura se vuelve circular, autorreferencial y desprovista de la fricción creativa que solo la experiencia humana directa puede generar.

Cuando toda la web empieza a parecerse

Esta dinámica tiene consecuencias que van mucho más allá de las simples herramientas de IA. El lector atento nota que los artículos de blog se parecen cada vez más, que los correos electrónicos profesionales comparten las mismas fórmulas y que los boletines adoptan estructuras idénticas. No es una coincidencia: es la firma invisible de modelos entrenados con los mismos datos y desplegados a gran escala.

La diversidad estilística de la web, que solía ser su mayor riqueza, se está erosionando progresivamente. Y paradójicamente, los modelos de OpenAI y Anthropic mejoran técnicamente mientras contribuyen a este empobrecimiento colectivo del lenguaje en línea.

Comparación de los principales modelos: rendimiento frente a calidad de escritura

Modelo	Desarrollador	Rendimiento Técnico (Benchmark)	Calidad Estilística Percibida	Tendencia Observada
GPT-4o	OpenAI	Muy alto	Correcta, pero uniforme	Aplanamiento del estilo desde finales de 2024
Claude 3.5 Sonnet	Anthropic	Muy alto	Fluida, pero consensuada	Tendencia a evitar opiniones firmes
GPT-4 (Versión Inicial)	OpenAI	Alto	Más singular, a veces áspera	Punto de referencia nostálgico para muchos usuarios
Claude 2	Anthropic	Medio a alto	Voz más marcada	Considerado más «humano» por algunos redactores

Por qué esto importa a los profesionales del contenido

Para los redactores, especialistas en marketing, periodistas o creadores de contenido, esta evolución no es insignificante. Utilizar un LLM para producir textos que se funden con la masa es una estrategia a corto plazo. Si todo el mundo utiliza las mismas herramientas configuradas de la misma manera, la diferenciación se vuelve imposible.

Esto también plantea una pregunta más profunda sobre el valor añadido humano en el proceso de escritura. Si la máquina produce una prosa correcta pero insípida, corresponde al ser humano aportar la tensión narrativa, el punto de vista firme, la anécdota personal y la metáfora inesperada. La IA se convierte entonces en una herramienta de formato, no de creación.

Estrategias concretas para eludir el aplanamiento estilístico

Ante este panorama, varios enfoques permiten recuperar la originalidad en las producciones asistidas por IA:

Inyectar una voz fuerte en el prompt: En lugar de pedir simplemente «escribe un artículo sobre X», es más eficaz especificar el tono, las referencias culturales, las expresiones a evitar o incluso proporcionar ejemplos de su propia escritura.
Usar la IA como copiloto, no como piloto automático: Generar un primer borrador y luego reelaborarlo en profundidad para insertar observaciones personales, ejemplos concretos extraídos de la experiencia real y formulaciones que rompan el ritmo previsto.

La responsabilidad de los desarrolladores de modelos

OpenAI y Anthropic no son ajenos a estas críticas. Ambas empresas han reconocido públicamente las limitaciones del RLHF en términos de creatividad y estilo. Anthropic, en particular, ha invertido en investigaciones sobre «IA Constitucional» y otros métodos destinados a reducir los sesgos de aplanamiento estilístico.

Sin embargo, las limitaciones comerciales juegan en contra de la audacia creativa. Un modelo que ofrece respuestas tajantes, defiende posiciones originales o adopta un estilo poco convencional corre un mayor riesgo de ofender a ciertos usuarios. Para las empresas que comercializan sus modelos a millones de organizaciones, la prudencia estilística es una decisión racional, aunque resulte culturalmente empobrecedora.

¿Hacia una nueva generación de modelos más expresivos?

Algunas señales son alentadoras. Modelos más recientes y especializados, entrenados con corpus literarios o periodísticos de alta calidad, demuestran que es posible conciliar el rendimiento técnico con la riqueza estilística. Startups como Mistral AI o proyectos de código abierto exploran vías de entrenamiento alternativas que priorizan la diversidad lingüística.

La cuestión, por tanto, no es si los LLM pueden escribir con estilo, sino si las grandes empresas que los desarrollan tienen suficientes incentivos económicos para hacerlo. Por ahora, la respuesta sigue siendo incierta.

Conclusión: recuperar el control sobre la calidad de la escritura

Los modelos de OpenAI y Anthropic mejoran en muchos criterios medibles, pero la escritura se siente más plana, y esta observación merece ser tomada en serio. El rendimiento técnico no garantiza la riqueza expresiva. A medida que estas herramientas se integran en nuestros flujos de trabajo, se vuelve crucial no delegar por completo la creación en sistemas optimizados para agradar a todos y, por lo tanto, no sorprender a nadie.

La responsabilidad recae en los usuarios para preservar su singularidad estilística, utilizando la IA como un amplificador de su voz en lugar de su sustituto. Y recae en los desarrolladores de modelos el no sacrificar la creatividad en el altar de la seguridad comercial.

¿Percibe este fenómeno en su práctica diaria? Comparta sus experiencias en los comentarios y explore nuestros otros recursos sobre el uso profesional de los LLM para profundizar en su comprensión de estas herramientas.

Regis Es

Regis Vansnick es un reconocido experto con amplia experiencia en la intersección entre tecnología, negocios e innovación. Su carrera profesional se caracteriza por un profundo conocimiento de la transformación digital y la gestión estratégica.

Los modelos de OpenAI y Anthropic avanzan, pero la escritura se siente más plana

Una paradoja muy real: más eficientes, pero menos impactantes

La búsqueda de la neutralidad como trampa estilística

La web como espejo deformante: la contaminación de los datos de entrenamiento

Cuando toda la web empieza a parecerse

Comparación de los principales modelos: rendimiento frente a calidad de escritura

Por qué esto importa a los profesionales del contenido

Estrategias concretas para eludir el aplanamiento estilístico

La responsabilidad de los desarrolladores de modelos

¿Hacia una nueva generación de modelos más expresivos?

Conclusión: recuperar el control sobre la calidad de la escritura

Deja un comentario Cancelar respuesta

Una paradoja muy real: más eficientes, pero menos impactantes

La búsqueda de la neutralidad como trampa estilística

La web como espejo deformante: la contaminación de los datos de entrenamiento

Cuando toda la web empieza a parecerse

Comparación de los principales modelos: rendimiento frente a calidad de escritura

Por qué esto importa a los profesionales del contenido

Estrategias concretas para eludir el aplanamiento estilístico

La responsabilidad de los desarrolladores de modelos

¿Hacia una nueva generación de modelos más expresivos?

Conclusión: recuperar el control sobre la calidad de la escritura

Must Read

Deja un comentario Cancelar respuesta