Pourquoi ChatGPT ne fonctionne pas en SEO

Aurélien Remy-Dionisi
Aurélien Remy-Dionisi

L'homme qui murmure à l'oreille des IA

Table des matières

Confier ton SEO à ChatGPT 🤔 Avoue que tu y as pensé (c’est même peut-être déjà fait !)

Bien que la plateforme d’Intelligence Artificielle mondialement connue semble naturellement se prêter à la génération de contenu SEO, je vais t’expliquer en quoi c’est une fausse bonne idée.

ChatGPT Chute de trafic SEO

Exemple de résultat obtenu en SEO avec ChatGPT 😬 Ça peut t’arriver aussi !

Qu’est-ce que ChatGPT (petit rappel)

ChatGPT est un programme informatique développé par la société américaine OpenAI qui sait écrire de manière très naturelle, comme un humain. C’est un robot qui connait beaucoup de choses et qui peut répondre à presque toutes les questions qu’on lui pose.

Pour fonctionner, ChatGPT utilise une architecture complexe de réseau de neurones appelée GPT, qui signifie “Generative Pre-trained Transformer“. Il a été entrainé (c’est à dire, il a appris à écrire) en ingurgitant des quantités massives de données textuelles extraites de milliers de livres, d’articles, de pages de sites et de conversations en ligne.

Bien que très impressionnant par sa capacité à comprendre et à générer du texte de manière convaincante, ChatGPT a ses propres limites.

chatgpt

Une composante essentielle de ChatGPT : le RLHF

“RLHF” : qu’est-ce que c’est ?

Le RLHF : “Reinforcement Learning from Human Feedback” est une méthode qui permet d’optimiser un modèle linguistique (une Intelligence Artificielle) en l’encourageant à adopter des comportements en adéquation avec des préférences humaines. Le principe consiste à lui faire suivre des instructions spécifiques pour l’aider à se comporter davantage comme un programme de discussion amical et coopératif.

Le “Human Feedback” se compose d’un ensemble d’exemples de textes classés par des humains et le “Reinforcement Learning” incite l’IA à favoriser des résultats similaires à ceux qui sont les mieux classés dans son corpus de référence.

ChatGPT n’est pas un modèle linguistique ordinaire. Il est entrainé avec du RLHF.

A quoi sert le RLHF ?

Avec la technique du RLHF, des évaluateurs humains classent les différentes réponses potentielles de ChatGPT selon leur qualité éditoriale. Ces classements sont ensuite utilisés pour affiner les prédictions du modèle via le “Reinforcement Learning”.

L’objectif est d’éviter des réponses moralement ou philosophiquement problématiques, pour favoriser la génération de texte neutre et bienveillant. Les travers sont ainsi en principe évités, les biais non désirés sont minimisés. Le but final étant de préserver l’alignement du texte généré par le modèle avec les valeurs éthiques et les normes sociales généralement acceptées par la majorité des utilisateurs.

En quoi le RLHF impact-il la manière dont ChatGPT génère du texte ?

L’exploitation de la technique du RLHF pour l’optimisation des réponses produites par ChatGPT va réduire la diversité des contenus générés.

Le RLHF tend à favoriser les réponses qui ont reçu un feedback positif lors de l’entraînement. Lorsque ces feedbacks sont limités dans leur diversité, le modèle peut générer des réponses stéréotypées et manquant de variété. Cela peut aussi conduire à une surpondération des préférences humaines, produisant des réponses qui se conforment trop aux attentes plutôt que d’explorer des pistes éditoriales plus originales et créatives.

Le contenu dupliqué : un souci majeur

Fournir la meilleure réponse, c’est fournir toujours la même réponse

Tu viens de le voir, l’exploitation de la technique du RLHF dans l’entrainement de ChatGPT est problématique car elle oriente la production éditoriale du modèle dans un sens déterminé par les feedbacks humains.

L’as-tu déjà remarqué ? ChatGPT rédige souvent des réponses quasi identiques lorsque tu lui poses des questions très proches ou similaires.

De fait, il est programmé pour fournir la meilleure réponse. Et la meilleure réponse pour une question déterminée, c’est forcément une réponse plus ou moins universelle par définition.

Du contenu générique et peu original

Tu le sais probablement, en SEO nous évitons de publier le même contenu éditorial que le site du voisin. Cela s’appelle du contenu dupliqué.

Google n’apprécie pas le contenu dupliqué. Et il le sanctionne.

ChatGPT génère du contenu basé sur les données dont il a été nourri lors de son entraînement avec un corpus qui s’est arrêté en 2021. Le texte généré est souvent générique et manque d’originalité, reflétant les tendances issues des données sur lesquelles il a été formé et vers lesquelles il est nativement aligné avec la technique du RLHF.

Celle-ci conduit ChatGPT à reproduire les motifs linguistiques qu’il a assimilé, cherchant à générer une réponse universelle à chaque question, imitant ainsi les schémas d’expression qu’il a appris.

Beaucoup de redondances sur les textes longs

Lors de la génération de textes longs, ChatGPT va tendre à produire encore plus de contenu dupliqué. Ceci est dû encore une fois aux limitations de son corpus d’entraînement. Comme celui-ci présente des biais, le modèle aura tendance à les reproduire, créant des redondances. Par exemple, si le corpus contient principalement des textes sur un sujet spécifique, le modèle pourra sur-générer du contenu lié à ce sujet, même lorsque ce n’est pas pertinent.

Le RLHF provoque également des boucles de rétroaction, favorisant les répétitions. Lorsqu’une certaine formulation ou une structure de phrase est fréquemment récompensée, le modèle a tendance à la réutiliser systématiquement.

L’exploitation très opaque de tes données par OpenAI, un autre inconvénient de ChatGPT

OpenAI a mis en place une fonctionnalité qui permet d’interdire à ChatGPT d’utiliser tes données pour optimiser son modèle. Les entreprises peuvent également en bénéficier avec le programme “ChatGPT Entreprise“.

Néanmoins, même si tu peux lui interdire à ton niveau, rien n’empêche un autre utilisateur qui y a accès aux mêmes données de les insérer dans le chatbot.

Et les utilisateurs de la version gratuite n’ont pas cette option. Les données qu’ils fournissent dans leurs prompts sont donc exploitées par OpenAI pour entrainer ses modèles.

La politique de traitement des données d’OpenAI est encore à l’heure actuelle très (trop) opaque. L’utilisation de ChatGPT pour générer du contenu peut exposer à des risques significatifs en terme de confidentialité et de propriété intellectuelle. OpenAI n’a pas une transparence totale sur la gestion des données, ce qui soulève des préoccupations. Les informations exposées dans les prompts sont traitées de manière indéterminée, mettant potentiellement en péril la confidentialité des données sensibles.

Le cas de la fuite de données chez Samsung a révélé par exemple que du code sensible soumis à ChatGPT pourra être potentiellement proposé à d’autres utilisateurs, à cause du système d’entrainement récursif du modèle.

Au final, ChatGPT est… un chatbot !

ChatGPT a été conçu pour dialoguer avec les humains

Présenté comme une intelligence autonome par certains, ChatGPT a été développé avant tout pour alimenter des chatbots. Il est certes basé sur l’architecture GPT, mais il reste un programme informatique conçu spécifiquement pour dialoguer de manière fluide avec des humains.

ChatGPT n’est pas vraiment “intelligent”. Il ne comprend pas les conversations, il ne fait que réagir aux entrées de texte grâce à un algorithmes sophistiqué basé sur des calculs statistiques.

Il est aussi limité par la date de constitution du corpus dont il se sert pour générer du texte. Il est incapable de fournir des informations actualisées après septembre 2021, ce qui limite grandement son utilité dans un monde en constante évolution.

Un modèle linguistique peu développé

Il faut également souligner que ChatGPT n’est qu’une version réduite de GPT-4 dont l’objectif est de générer du texte plus vite. Avec ses supposés 20 milliards de paramètres, il est nettement moins puissant et moins créatif que son grand frère. Ce nombre de paramètres peut paraître impressionnant, mais il est en réalité insuffisant pour produire des réponses diversifiées et originales (pour rappel : GPT-3 c’était 175 milliards de paramètres). Un modèle plus évolué sera beaucoup plus capable.

Au final, bien que ChatGPT soit présenté comme une intelligence artificielle avancée, il est en réalité limité par sa taille réduite et sa capacité inférieure à celle de modèles beaucoup plus sophistiqués.

Quelle alternative à ChatGPT pour générer du contenu optimisé pour le SEO ?

Produire du contenu SEO diversifié, original et documenté demande d’utiliser une IA qui a été conçue entièrement pour cette tache.

Une IA différente, connectée à internet et entrainée spécifiquement pour le contenu éditorial long

Le modèle idéal, c’est une intelligence artificielle conçue spécifiquement pour générer du contenu optimisé pour le SEO qui ne s’appuie pas sur ChatGPT ou GPT-4.

Une IA nativement connectée à internet va exploiter des informations toujours à jour. La connexion à internet permet également d’insérer des données plus diversifiées et fiables dans le contenu généré, évitant ainsi le problème de duplication couramment rencontré avec ChatGPT.

Il faut également que le modèle soit entraîné spécifiquement pour la création de contenu éditorial riche, bien structuré et cohérent. Un apprentissage axé sur des contenus denses et informatifs permet à l’IA de bénéficier d’une qualité éditoriale supérieure, pour créer des textes persuasifs et engageants qui attirent et retiennent l’attention des internautes.

Une plateforme qui combine l’IA avec de l’optimisation sémantique SEO

Pour atteindre des résultats concrets, l’optimisation sémantique SEO doit être incluse dans la génération de contenu assistée par l’IA.

Les algorithmes SEO analysent l’ensemble du contexte sémantique pour produire un contenu qui répond de manière précise aux critères des algorithmes de recherche. En se basant sur un large corpus de textes, l’IA doit être capable de produire des textes uniques et pertinents, optimisés pour tes cibles SEO, tout en évitant les redondances et les répétitions.

Combiner l’intelligence artificielle avec l’optimisation sémantique SEO, c’est offrir une alternative efficace à ChatGPT en répondant aux besoins spécifiques des professionnels du marketing digital et du SEO.

Une IA qui n’utilise pas tes données sensibles pour s’améliorer

La doctrine d’OpenAI en terme d’apprentissage est dangereuse pour les entreprises. L’IA ne doit pas s’appuyer sur les données des utilisateurs pour améliorer sa qualité éditoriale. La protection de la confidentialité et de la propriété intellectuelle sont essentielles.

Tu ferais confiance à un plombier pour te soigner ?

Alors évite de confier ton SEO à une IA qui n’a pas été conçue pour ça…

IA et SEO sont-ils compatibles ? Oui !

A une condition : utiliser un modèle conçu spécifiquement pour générer du contenu optimisé pour les moteurs de recherche sans compromettre l’intégrité de l’information.

Contenu dupliqué, soucis de confidentialité des données : garde en tête que ChatGPT, bien qu’efficace dans de nombreux domaines, n’est pas la bonne solution pour faire du SEO.

Mais avec la bonne technologie et une approche axée sur des indicateurs tangibles, l’IA sera un atout précieux dans ton arsenal de SEO.

Vite mon texte : écriture