OpenAI et Anthropic : pourquoi l'écriture devient plate

Les modèles d’OpenAI et d’Anthropic s’améliorent sur le plan technique, mais l’écriture semble plus plate qu’avant. C’est un paradoxe que de nombreux utilisateurs commencent à ressentir sans toujours pouvoir le formuler clairement. Les benchmarks progressent, les capacités de raisonnement s’affinent, et pourtant, quelque chose semble s’être effacé dans la texture même des textes générés. Cet article explore ce phénomène, ses causes probables, et ses implications pour quiconque utilise ces outils au quotidien.

Un paradoxe bien réel : plus performants, mais moins percutants

Il suffit de comparer les sorties de GPT-4 ou Claude 3 avec celles obtenues il y a un an pour percevoir une différence de ton. Les réponses sont plus longues, mieux structurées, plus faciles à lire. Mais elles ont perdu quelque chose d’essentiel : une certaine singularité, une prise de risque dans l’expression, une voix reconnaissable.

Cette observation, relayée par de nombreux professionnels du numérique, a été résumée avec précision par l’entrepreneur Nav Toor sur X (anciennement Twitter) : les prompts qui fonctionnaient très bien il y a six mois produisent aujourd’hui des résultats moins satisfaisants. L’écriture sonne plus uniforme, les idées sont plus sûres, plus consensuelles. Le modèle semble avoir appris à ne jamais décevoir, au prix de ne jamais surprendre.

La quête de la neutralité comme piège stylistique

Pour comprendre ce glissement, il faut regarder du côté des processus d’entraînement. Les grands modèles de langage comme GPT-4o ou Claude 3.5 Sonnet sont affinés après leur phase de pré-entraînement grâce à des techniques comme le RLHF (Reinforcement Learning from Human Feedback). Des évaluateurs humains notent les réponses, et le modèle apprend à maximiser ces scores.

Le problème est que les évaluateurs humains tendent à préférer les réponses lisibles, polies et sans aspérités. Une formulation audacieuse peut paraître incorrecte à un évaluateur peu familier du contexte. Une métaphore originale peut sembler floue. Résultat : le modèle converge vers un style moyen, acceptable par tous, mémorable pour personne.

C’est ce que certains chercheurs en IA appellent le « median writing problem » : l’optimisation vers la préférence humaine moyenne produit une prose médiocre au sens étymologique du terme, c’est-à-dire une prose du milieu.

Le web comme miroir déformant : la contamination des données d’entraînement

Un second facteur aggrave ce phénomène. Depuis l’explosion de l’usage des LLM (Large Language Models) en 2023 et 2024, une part croissante du contenu publié sur Internet est elle-même générée par des modèles d’IA. Des articles de blog, des newsletters, des publications LinkedIn, des pages produit : tous rédigés en partie ou en totalité par des outils comme ChatGPT ou Claude.

Ce contenu retourne ensuite dans le corpus d’entraînement des prochaines versions des modèles. On entre ainsi dans une boucle de rétroaction stylistique : le modèle apprend à imiter un web qui l’imite déjà. Chaque itération homogénéise un peu plus le résultat. L’écriture devient circulaire, auto-référentielle, dépourvue de la friction créative que seule l’expérience humaine directe peut générer.

Quand tout le web commence à se ressembler

Cette dynamique a des conséquences bien au-delà des simples outils d’IA. Le lecteur attentif remarque que les articles de blog se ressemblent de plus en plus, que les emails professionnels partagent les mêmes tournures, que les newsletters adoptent les mêmes structures. Ce n’est pas une coïncidence : c’est la signature invisible de modèles entraînés sur les mêmes données et utilisés à grande échelle.

La diversité stylistique du web, qui était sa richesse, s’érode progressivement. Et paradoxalement, les modèles d’OpenAI et d’Anthropic s’améliorent techniquement tout en contribuant à cet appauvrissement collectif du langage en ligne.

Comparaison des principaux modèles : performances versus qualité d’écriture

Modèle	Éditeur	Performance technique (benchmark)	Qualité stylistique perçue	Tendance observée
GPT-4o	OpenAI	Très élevée	Correcte, mais uniforme	Aplatissement du style depuis fin 2024
Claude 3.5 Sonnet	Anthropic	Très élevée	Fluide, mais consensuelle	Tendance à l’évitement des opinions tranchées
GPT-4 (version initiale)	OpenAI	Élevée	Plus singulière, parfois rugueuse	Référence nostalgique pour de nombreux utilisateurs
Claude 2	Anthropic	Moyenne à élevée	Voix plus marquée	Jugé plus « humain » par certains rédacteurs

Pourquoi cela compte pour les professionnels du contenu

Pour les rédacteurs, les marketeurs, les journalistes ou les créateurs de contenu, cette évolution n’est pas anodine. Utiliser un LLM pour produire des textes qui se fondent dans la masse est une stratégie à courte vue. Si tout le monde utilise les mêmes outils réglés de la même façon, la différenciation devient impossible.

Cela soulève également une question plus profonde sur la valeur ajoutée humaine dans le processus d’écriture. Si la machine produit une prose correcte mais fade, c’est à l’humain d’apporter la tension narrative, le point de vue tranché, l’anecdote personnelle, la métaphore inattendue. L’IA devient alors un outil de mise en forme, pas un outil de création.

Des stratégies concrètes pour contourner l’aplatissement stylistique

Face à ce constat, plusieurs approches permettent de retrouver de l’originalité dans les productions assistées par IA :

Injecter une voix forte dans le prompt : plutôt que de demander « rédige un article sur X », il est plus efficace de préciser le ton, les références culturelles, les tournures à éviter, voire de fournir des exemples de sa propre écriture.
Utiliser l’IA comme co-pilote, pas comme pilote automatique : générer une première ébauche, puis la retravailler profondément pour y insérer des observations personnelles, des exemples concrets tirés de l’expérience réelle, et des formulations qui brisent le rythme attendu.

La responsabilité des éditeurs de modèles

OpenAI et Anthropic ne sont pas insensibles à ces critiques. Les deux entreprises ont publiquement reconnu les limites du RLHF en matière de créativité et de style. Anthropic, en particulier, a investi dans des recherches sur la « Constitutional AI » et d’autres méthodes visant à réduire les biais d’aplatissement stylistique.

Mais les contraintes commerciales jouent contre l’audace créative. Un modèle qui produit des réponses tranchées, qui défend des positions originales ou qui adopte un style non conventionnel risque davantage de heurter certains utilisateurs. Pour des entreprises qui commercialisent leurs modèles à des millions d’organisations, la prudence stylistique est une décision rationnelle, même si elle est culturellement appauvrissante.

Vers une nouvelle génération de modèles plus expressifs ?

Certains signaux sont encourageants. Des modèles plus récents et plus spécialisés, entraînés sur des corpus littéraires ou journalistiques de haute qualité, montrent qu’il est possible de concilier performance technique et richesse stylistique. Des startups comme Mistral AI ou des projets open source explorent des pistes d’entraînement alternatives qui privilégient la diversité linguistique.

La question n’est donc pas de savoir si les LLM peuvent écrire avec style, mais si les grandes entreprises qui les développent ont suffisamment d’incitations économiques à le faire. Pour l’instant, la réponse reste incertaine.

Conclusion : reprendre la main sur la qualité de l’écriture

Les modèles d’OpenAI et d’Anthropic s’améliorent sur de nombreux critères mesurables, mais l’écriture semble plus plate, et ce constat mérite d’être pris au sérieux. La performance technique ne garantit pas la richesse expressive. À mesure que ces outils s’intègrent dans nos flux de travail, il devient crucial de ne pas déléguer entièrement la création à des systèmes optimisés pour plaire à tous, donc pour ne surprendre personne.

La responsabilité revient aux utilisateurs de préserver leur singularité stylistique, en utilisant l’IA comme un amplificateur de leur voix plutôt que comme son substitut. Et elle revient aux éditeurs de modèles de ne pas sacrifier la créativité sur l’autel de la sécurité commerciale.

Vous ressentez ce phénomène dans votre pratique quotidienne ? Partagez vos expériences dans les commentaires et explorez nos autres ressources sur l’usage professionnel des LLM pour aller plus loin dans votre compréhension de ces outils.

Regis Fr

Regis Vansnick est un expert reconnu qui possède une vaste expérience à la croisée de la technologie, des affaires et de l’innovation. Sa carrière professionnelle se caractérise par une compréhension approfondie de la transformation numérique et de la gestion stratégique.

Les modèles d’OpenAI et Anthropic progressent, mais l’écriture semble plus plate

Un paradoxe bien réel : plus performants, mais moins percutants

La quête de la neutralité comme piège stylistique

Le web comme miroir déformant : la contamination des données d’entraînement

Quand tout le web commence à se ressembler

Comparaison des principaux modèles : performances versus qualité d’écriture

Pourquoi cela compte pour les professionnels du contenu

Des stratégies concrètes pour contourner l’aplatissement stylistique

La responsabilité des éditeurs de modèles

Vers une nouvelle génération de modèles plus expressifs ?

Conclusion : reprendre la main sur la qualité de l’écriture

Laisser un commentaire Annuler la réponse

Un paradoxe bien réel : plus performants, mais moins percutants

La quête de la neutralité comme piège stylistique

Le web comme miroir déformant : la contamination des données d’entraînement

Quand tout le web commence à se ressembler

Comparaison des principaux modèles : performances versus qualité d’écriture

Pourquoi cela compte pour les professionnels du contenu

Des stratégies concrètes pour contourner l’aplatissement stylistique

La responsabilité des éditeurs de modèles

Vers une nouvelle génération de modèles plus expressifs ?

Conclusion : reprendre la main sur la qualité de l’écriture

Must Read

Laisser un commentaire Annuler la réponse