Comment repérer le contenu généré par l'IA

Publié: 2023-01-17

Eh bien, la prise de contrôle du robot est enfin là.

Les robots d'aujourd'hui ne se contentent pas de construire des voitures ou de cuisiner des pâtes ; ils ont eu des conversations à part entière et écrit des articles (un peu comme celui-ci).

C'est exact. Grâce à des percées majeures dans le monde de l'intelligence artificielle (IA), nous disposons désormais d'outils sophistiqués capables de générer du texte de type humain.

Mais il existe également des outils de détection de contenu IA.

Certains d'entre vous ne sont pas surpris par cela. Après tout, des articles écrits par l'IA sont publiés dans les médias grand public depuis de nombreuses années maintenant. Vous avez probablement même lu l'un de ces articles écrits par l'IA sans même vous en rendre compte.

La différence est le niveau de sophistication présent. Auparavant, les outils de génération de contenu d'IA étaient fondamentalement limités à la production d'articles sur des sujets faciles à digérer, comme les rapports boursiers ou les mises à jour sportives.

Mais de nos jours, le contenu généré par la machine est partout et couvre tout.

Et il est pratiquement impossible de le distinguer du contenu écrit par l'homme…

Ou est-ce?

Découvrons-le.

Table des matières

Qu'est-ce que le contenu généré par l'IA ?

ChatGPT

Le contenu généré par l'IA est tout texte, message, article ou autre type de contenu produit par un algorithme d'apprentissage automatique. En règle générale, un utilisateur peut entrer une invite, guidant l'IA pour qu'elle écrive sur un certain sujet, vous pose une question ou la dirige pour couvrir un événement spécifique.

En réponse à l'invite, l'IA prend vie et produit quelque chose de lisible, compréhensible et, espérons-le, efficace.

La création de contenu IA a également été vantée pour sa capacité à faire évoluer la vitesse du contenu pour certains des plus grands sites Web en ligne.

Le dernier projet d'OpenAI, ChatGPT, en est un exemple. Selon les propres mots de l'organisation, « Nous avons formé un modèle appelé ChatGPT qui interagit de manière conversationnelle. Le format de dialogue permet à ChatGPT de répondre aux questions de suivi, d'admettre ses erreurs, de contester les prémisses incorrectes et de rejeter les demandes inappropriées.

Comment ça marche?

Le modèle de langage ChatGPT utilise à la fois l'apprentissage supervisé et l'apprentissage par renforcement, bien qu'il utilise davantage l'apprentissage par renforcement, en s'appuyant sur la rétroaction humaine pour s'affiner. Fondamentalement, il observe et tente d'imiter des exemples de langage humain dans un nombre pratiquement infini de contextes ; ensuite, il "interagit" avec les humains, qui peuvent le guider vers des sorties linguistiques plus acceptables et souhaitables. Avec des millions de minuscules boucles de rétroaction aidant le modèle d'IA à « comprendre » le langage, ce n'est qu'une question de temps avant qu'il ne maîtrise l'utilisation du langage.

Comme nous le verrons, ce n'est pas la « vraie » maîtrise.

L'IA dans ce contexte n'a aucune compréhension cérébrale du sujet, même si cela peut sembler ainsi à un étranger. L'IA ne réfléchit pas vraiment à ce qu'elle dit et n'exécute aucune fonctionnalité cognitive avancée dans le traitement du sujet.

Au lieu de cela, l'IA observe et imite simplement les modèles qu'elle voit reproduits sur tout le Web et dans les invites et les réponses des utilisateurs avec lesquels elle interagit.

Après quelques milliards d'exemples, il devient trivialement facile pour l'IA d'imiter les structures de phrases anglaises conventionnelles, en utilisant les noms, les verbes et les adjectifs de manière parfaitement appropriée.

Après quelques milliards d'exemples supplémentaires et quelques informations spécifiques au contexte, il peut rédiger quelques courts paragraphes sur pourquoi et comment la révolution industrielle s'est produite.

Bien sûr, ChatGPT n'est qu'un exemple d'application de contenu généré par l'IA. En fait, nous sommes sur le point de voir une explosion des outils de génération de contenu d'IA dans les prochaines années alors que les entrepreneurs et les innovateurs perturbateurs se précipitent pour voir qui peut proposer l'application la plus rentable pour cette nouvelle technologie.

Nous verrons probablement des outils spécifiquement conçus pour des cas d'utilisation individuels, comme la génération de reportages dans une catégorie spécifique, l'écriture pour le référencement, la rédaction d'essais universitaires et même la génération d'e-mails professionnels.

Quelle époque pour être un écrivain humain. Ou lecteur.

Pourquoi le contenu généré par l'IA est un problème

Pourquoi le contenu généré par l'IA est un problème

Laissant de côté certaines blagues ironiques que je pourrais faire sur ma propre insécurité d'emploi, il est juste de dire que le contenu généré par l'IA a le potentiel d'être problématique, et dans plus d'un domaine.

Considérez cette petite sélection de possibilités.

  • Inconduite académique. Le monde universitaire panique déjà à l'idée que les étudiants utilisent l'IA pour générer des essais, des réponses aux devoirs, etc. S'il est impossible, voire difficile de faire la différence entre un essai écrit par un étudiant et un écrit généré par une machine, comment pouvons-nous être sûrs que nous notons et récompensons les étudiants de manière appropriée ? Pouvez-vous maintenant obtenir un diplôme dans un domaine comme l'anglais simplement parce que vous savez utiliser ChatGPT de manière assez efficace ?
  • Spam de contenu. Le spam de contenu est un autre problème potentiel. Pendant des années, l'industrie de l'optimisation des moteurs de recherche (SEO) s'est fortement appuyée sur le travail d'écrivains humains. La rédaction de contenu sur site, de contenu hors site et la création de backlinks établissent l'autorité d'un site Web et lui permettent de se classer plus haut dans les moteurs de recherche. Et même avec des humains compétents qui écrivent, le Web a été surchargé de production de contenu agressive. Partout où vous regardez, il y a des articles moelleux et des pièces promotionnelles fournissant des informations minimales mais servant un objectif pour le référencement. Le problème ne fera que s'aggraver lorsque les spécialistes du marketing pourront générer des articles entiers en quelques secondes.
  • Inexactitudes et fausses nouvelles. ChatGPT est spécifiquement développé avec des garanties pour l'empêcher d'être influencé par des préjugés ou de rapporter des informations inexactes. Mais quelle sera la fiabilité de ces garanties ? Et pourraient-ils s'appliquer à tous les outils de génération de contenu IA ? Dans tous les cas, les inexactitudes et les fausses nouvelles sont une préoccupation légitime.

Comment repérer le contenu généré par l'IA : le niveau élevé

Alors, comment pouvez-vous repérer le contenu généré par l'IA ?

Qu'est-ce qui le différencie du texte écrit par l'homme ?

Nous allons commencer par l'approche de haut niveau.

Vous pouvez tenter de détecter le contenu généré par l'IA à l'aide d'outils ou d'une approche manuelle. Avec l'approche basée sur des outils, vous aurez besoin d'une application spécifique qui a été conçue et programmée pour identifier et mesurer les signaux potentiels indiquant qu'un élément de contenu a été écrit par une machine. Dans l'approche manuelle, vous utiliserez votre propre diligence raisonnable et votre bon sens pour effectuer le travail.

Dans les deux contextes, votre succès dépendra de votre capacité à détecter des modèles. N'oubliez pas que les outils de génération de contenu IA peuvent sembler aussi créatifs et réfléchis que les êtres humains, mais leur approche est extrêmement mathématique et basée sur des modèles existants. En conséquence, le contenu qu'ils produisent, lorsqu'il est scruté, révèle les modèles qu'ils ont étudiés.

Remarquer une seule bizarrerie ou caractéristique du contenu généré par l'IA n'est pas suffisant pour prouver définitivement qu'un contenu a été écrit par une machine. Mais si vous commencez à remarquer plusieurs caractéristiques et que ces signaux sont cohérents sur l'ensemble de la pièce, vous pouvez en conclure que la pièce a probablement été écrite par l'IA - ou du moins, qu'elle a été écrite par un auteur humain incompétent.

Comment repérer le contenu généré par l'IA : tactiques spécifiques

Maintenant, creusons plus de détails.

Bien sûr, vous pouvez utiliser un outil ou votre propre jugement pour identifier et détecter le contenu généré par l'IA. Mais que recherchez-vous précisément dans ces machines ?

Voici les tactiques que vous pouvez utiliser pour discerner la différence entre un contenu écrit par une machine et un contenu écrit par un humain :

Recherchez le vocabulaire répétitif.

Les outils d'écriture basés sur l'IA basent toutes leurs sorties sur des modèles et des moyennes sur des millions d'entrées différentes. Ils veulent suivre les règles moyennes les plus courantes possibles, ils se concentrent donc généralement uniquement sur les mots les plus courants de la langue anglaise. Dans n'importe quel écrit, qu'il soit généré par une IA ou un humain, vous trouverez des mots spécifiques répétés encore et encore, comme « le », « et » ou « mais ».

Mais dans le contenu généré par l'IA, la répétition est beaucoup plus apparente et s'applique également aux mots de vocabulaire de niveau supérieur. Dans une critique d'un restaurant rédigée par un humain, vous pourriez voir des mots comme «délicieux», «savoureux», «délectable», «délicieux», «délicieux», «savoureux» ou même «orgasmique». Une IA ne peut en utiliser qu'un ou deux. Plus ces mots descriptifs sont colorés et diversifiés, plus le contenu aura probablement été écrit par un humain. Plus le vocabulaire est statique et répétitif, plus le contenu aura probablement été écrit par une IA.

Signalez les mots rares et très spécifiques.

De même, vous pouvez exclure la possibilité qu'un élément de contenu ait été écrit par l'IA si vous pouvez trouver une large sélection de mots rares ou très spécifiques. La plupart des machines de génération d'IA ne vont pas prendre de risque en utilisant un mot qu'elles n'ont rencontré qu'une ou deux fois dans leurs millions de documents explorés. Ils vont s'en tenir aux mots les plus couramment utilisés en anglais, à moins qu'il ne soit absolument nécessaire de s'en écarter.

Il serait prétentieux de ma part de qualifier mon entreprise de sur-mesure ou moi-même d'érudit, même si ma kakorrhaphiophobie m'en empêche. Vous pourriez dire que ces mots sont parfaitement cromulants. Mais dans tous les cas, - vous ne verrez jamais un paragraphe de texte comme celui-ci dans un article écrit par l'IA.

Faites attention au phrasé.

Edward Tian, ​​un senior de 22 ans à l'Université de Princeton, a mis au point un outil ou une application de détection de contenu qui détecte si une bande de texte a été écrite par l'IA. L'un de ses principaux critères d'évaluation est la « rafale ».

En termes simples, la rafale est une caractéristique du texte marquée par une variation dans la structure de la phrase et est un outil utilisé pour détecter le contenu de l'IA.

Lorsque les êtres humains écrivent quelque chose, ils ont tendance à utiliser un mélange très varié de longueurs et de modèles de phrases. Il y a des phrases courtes. Il y a de longues phrases. Il y a des phrases entre les deux. Comme démonstration de ceci, vous pouvez regarder ce même paragraphe ; la phrase la plus courte n'a que 4 mots, tandis que la plus longue en a 26. Vous n'allez probablement pas trouver cette diversité dans le contenu écrit par une IA.

Au lieu de cela, les phrases ont tendance à être similaires et répétitives, suivant un schéma en blocs et (de manière appropriée) robotique.

Évaluer la fluidité du langage.

La fluidité du langage est un concept difficile à décrire car quelque peu subjectif. Mais la plupart d'entre nous peuvent faire la différence entre un locuteur natif de l'anglais et quelqu'un qui l'apprend pour la première fois, même s'il parle proprement et sans accent perceptible. Pourquoi? Nous avons passé notre vie entière à parler, écouter, lire et écrire dans cette langue, nous la connaissons donc intimement. Nous comprenons le pouvoir du langage et la meilleure façon de l'utiliser, nous sommes donc capables d'exploiter son pouvoir avec désinvolture. Les outils d'IA peuvent identifier des modèles dans le langage et répéter ces modèles, mais comme ils ne comprennent pas la signification de ces modèles, ils ne sont actuellement pas en mesure de reproduire avec précision la fluidité.

Comment pouvez-vous évaluer cela et faire la différence entre un article écrit par une IA et un écrit par un humain ? Essayez d'imaginer le contenu lu à haute voix par un être humain. La personne qui le lit semble-t-elle à l'aise, chaleureuse et accessible ? Ou y a-t-il quelque chose qui ne va pas dans leur façon de parler ? De toute évidence, le texte écrit est plus plat que le texte conversationnel, et certains d'entre nous sont naturellement un peu robotiques. Mais en combinaison avec certains de ces autres signes révélateurs, un manque de fluidité peut être une indication de l'origine de la machine.

Tenez compte de la complexité.

Le contenu vous fait-il réfléchir ? Est-ce que cela remet en question l'une de vos notions existantes ? Introduit-il des concepts difficiles à comprendre ? Si l'un de ces éléments est vrai, la pièce a probablement été écrite par un humain.

Actuellement, les machines de génération de contenu sont excellentes pour répéter des faits et réassembler des morceaux de texte trouvés sur le Web. Mais ils sont terribles à trouver des idées nouvelles. Les générateurs de contenu d'IA n'ont pratiquement aucune capacité à remettre en question le statu quo, à s'écarter de l'opinion dominante, à remettre en question les principales hypothèses ou à penser de manière créative. Seuls les humains peuvent le faire.

Il est plus facile d'observer cette différence lorsque vous lisez un article sur un sujet que vous comprenez vraiment ou sur un sujet dans lequel vous êtes considéré comme un expert. Vous pouvez presque immédiatement faire la différence entre un vrai maître du sujet et quelqu'un qui régurgite des faits de base à partir de manuels. Plus une pièce est complexe, plus il est probable qu'elle provienne d'un humain.

Recherchez l'argot, les idiomes et les métaphores.

Recherchez l'argot, les idiomes et les métaphores.

Pour l'instant, c'est une qualité exclusivement humaine de pouvoir utiliser le langage de manière très désinvolte et illustrative. Nos outils de génération de contenu IA actuels ne sont pas assez sophistiqués ou ne sont pas prêts à prendre le risque d'utiliser de l'argot, des idiomes ou des métaphores.

Je ne vais pas me mettre dans l'embarras en utilisant l'argot de la génération Z comme exemple. Mais repensez à mon exemple sur la façon dont un critique humain ou machine aborderait la description de la nourriture dans un restaurant; ceci est un exemple illustratif, et simple, mais il est probablement encore trop complexe pour apparaître dans le corps d'un contenu rédigé par une IA.

Comptez les fautes de frappe.

Ironiquement, lorsque les gens voient des fautes de frappe et des erreurs, ils sont plus susceptibles de penser que cela a été généré par l'IA. C'est parce que nous avons cet étrange parti pris de supposer que les humains sont meilleurs que les machines à tous égards. Mais en fait, c'est le contraire qui est vrai.

Les algorithmes d'IA sont fonctionnellement parfaits pour reproduire du texte, donc si vous trouvez une faute d'orthographe ou une mauvaise utilisation grossière d'un mot de vocabulaire, vous pouvez presque garantir qu'il a été écrit par un humain.

À certains égards, c'est le signal le plus fiable qui peut vous dire si un élément de contenu a été écrit par un humain. Tout comme les calculatrices ne font jamais d'erreurs numériques, les générateurs de contenu IA ne font jamais de fautes de frappe douloureusement simples.

J'imagine qu'à cause de cela, la prochaine génération de moteurs de génération de contenu IA inclura des fonctionnalités qui vous permettront de contrôler les imperfections ; en un clic, vous pouvez garantir que chaque article produit par votre générateur de contenu IA comporte au moins une faute d'orthographe pour augmenter artificiellement son authenticité.

Nous vivons une époque étrange et ironique.

Si vous recherchez un résumé des résultats, c'est ceci : le contenu généré par l'IA est répétitif de manière robotique, inartistique et incapable de faire de simples erreurs. L'argot, les mots de vocabulaire variés, les bonnes métaphores, les structures de phrases diverses, les idées complexes et les fautes de frappe sont tous des signes sûrs que vous lisez quelque chose écrit par une personne réelle.

À quel point est-ce important ?

Dans le film Blade Runner (et des tonnes d'œuvres inspirées similaires comme Westworld ), l'un des thèmes centraux est de discerner ce qui compte comme personnalité. Si un réplicant (une personne artificielle dans le monde de Blade Runner ) ressemble à un humain, parle comme un humain, pense comme un humain et même se sent comme un humain, est-il vraiment si important de le qualifier de non humain ?

Je suis d'accord avec l'idée que si une IA peut produire un contenu fonctionnellement identique au contenu produit par les humains, elle devrait être traitée de la même manière. C'est tout aussi précieux et c'est tout aussi illustratif. Donc, de manière réaliste, si vous avez du mal à faire immédiatement la différence entre ces deux types de contenu généré, il n'y a aucune raison pour que vous sautiez à travers des cerceaux ou que vous jouiez à Sherlock Holmes pour résoudre le mystère de savoir qui a écrit chaque contenu que vous lisez à partir de maintenant.

Mais en même temps, je pense qu'il est important de publiciser et d'intérioriser un article comme celui-ci, et pour deux raisons principales :

  • Il est facile de faire la différence si vous savez ce qu'il faut rechercher. Dans Blade Runner , il est extrêmement difficile de faire la différence entre une personne et un réplicant. Mais cette difficulté n'est pas compensée par les comparaisons modernes de texte généré par l'homme et généré par l'IA. En fait, en tant que communicant professionnel avec de nombreuses années d'expérience, il m'est très facile de signaler du matériel provenant de l'IA. Ce n'est pas une vantardise; c'est une illustration du caractère rudimentaire de ces outils apparemment sophistiqués.

Pense-y de cette façon; Si vous êtes relativement novice dans le jeu d'échecs, vous ne seriez probablement pas en mesure de faire la différence entre une IA rudimentaire piratée par un adolescent expérimentateur et Deep Blue, le supercalculateur IBM qui a battu le grand maître Gary Kasparov. Mais Gary Kasparov n'aurait aucun mal à battre l'IA rudimentaire.

Ceci est important car les bons joueurs d'échecs doivent s'efforcer de faire la différence entre une IA paresseuse et Deep Blue. Et les bons lecteurs devraient s'efforcer de faire la différence entre ChatGPT et une IA qui surpasse les capacités de nos meilleurs écrivains humains (bien que, pour être juste, ChatGPT soit beaucoup plus proche de Deep Blue que l'IA paresseuse de notre exemple).

  • Les outils de génération de contenu IA ont leur place. J'ai passé pas mal de temps dans cet article à dénigrer l'utilité et les performances du contenu généré par l'IA, mais la réalité est que ces outils d'IA ont leur place. Ils pourraient être incroyablement utiles pour enseigner aux gens, fournir de l'aide et permettre le développement de nouvelles technologies dont personne n'a encore rêvé. À l'avenir, ils pourront peut-être égaler ou dépasser les prouesses artistiques et illustratives de Tolstoï ou de Shakespeare.

Mais nous n'allons les pousser à ce niveau supérieur que si nous sommes critiques et attentifs aux outils dont nous disposons actuellement. Souligner les lacunes de la génération de contenu IA va motiver les développeurs de ces outils à combler ces lacunes à l'avenir.

Nous pouvons déjà en voir la preuve. ChatGPT est décrit comme étant capable de "contester des prémisses incorrectes et de rejeter des demandes inappropriées". Et je ne peux pas m'empêcher de me demander si ces éléments ont été introduits à cause de l'échec désastreux de Tay, un chatbot AI basé sur Twitter que Microsoft a déployé, ou de technologies de début similaires. Tay, pour mémoire, a été formé par des trolls pour devenir absurdement raciste et offensant – en moins de 24 heures, rien de moins.

C'est notre travail en tant que partisans de l'innovation de souligner les défauts et les faiblesses des technologies actuelles afin que nous puissions nous efforcer de développer quelque chose d'encore meilleur. Quelque chose qui pourrait vraiment changer le monde.

Avez-vous remarqué ce que j'ai fait dans cette section précédente ?

Une IA ne va pas générer de références Blade Runner dans son écriture pour illustrer un point.

Il ne va pas non plus faire de commentaires sardoniques comme ça. Ou utilisez le mot sardonique.

Je suis tout humain, bébé.

Et bien qu'il existe certainement des applications fascinantes pour l'écriture d'IA à la fois maintenant et à l'avenir, si vous voulez avoir le plus grand impact avec votre stratégie de marketing de contenu et de référencement, vous avez besoin de rédacteurs humains pour faire le gros du travail.

Les écrivains humains peuvent être des experts, des leaders d'opinion et des communicateurs persuasifs et astucieux.

Et pour l'instant, un écrivain IA ne peut pas égaler cela.

Si vous avez besoin d'aide pour améliorer votre référencement, pour créer du contenu qui engage vraiment les lecteurs ou d'autres stratégies de marketing numérique avec des experts humains, vous êtes venu à l'endroit de l'écriture (jeu de mots - encore une autre tâche impossible pour l'IA). Contactez-nous pour une consultation gratuite aujourd'hui!