Cómo detectar contenido generado por IA
Publicado: 2023-01-17Bueno, la adquisición del robot finalmente está aquí.
Los robots de hoy no solo construyen autos o cocinan pasta; han tenido conversaciones en toda regla y han escrito artículos (no muy diferente a este).
Así es. Gracias a algunos avances importantes en el mundo de la inteligencia artificial (IA), ahora contamos con herramientas sofisticadas capaces de generar texto similar al humano.
Pero también hay herramientas de detección de contenido de IA.
Algunos de ustedes no están sorprendidos por esto. Después de todo, los artículos escritos por AI se han publicado en los principales medios de comunicación durante muchos años. Probablemente incluso hayas leído uno de estos artículos escritos por IA sin siquiera darte cuenta.
La diferencia es el nivel de sofisticación presente. Anteriormente, las herramientas de generación de contenido de IA se limitaban fundamentalmente a producir artículos sobre temas fáciles de digerir, como informes bursátiles o actualizaciones deportivas.
Pero en estos días, el contenido generado por máquinas está en todas partes y cubre todo.
Y es prácticamente indistinguible del contenido escrito por humanos...
¿O es eso?
Vamos a averiguar.
Tabla de contenido
¿Qué es el contenido generado por IA?
El contenido generado por IA es cualquier texto, mensaje, artículo u otro tipo de contenido producido por un algoritmo de aprendizaje automático. Por lo general, un usuario puede ingresar un aviso, guiando a la IA para que escriba sobre un tema determinado, haciéndole una pregunta o dirigiéndola para cubrir algún evento específico.
En respuesta al aviso, la IA cobra vida y produce algo legible, comprensible y, con suerte, efectivo.
La creación de contenido de IA también ha sido promocionada por su capacidad de escalar la velocidad del contenido para algunos de los sitios web más grandes en línea.
El último proyecto de OpenAI, ChatGPT, es un ejemplo de esto. En palabras de la propia organización, “Hemos entrenado un modelo llamado ChatGPT que interactúa de forma conversacional. El formato de diálogo hace posible que ChatGPT responda preguntas de seguimiento, admita sus errores, cuestione premisas incorrectas y rechace solicitudes inapropiadas”.
¿Como funciona?
El modelo de lenguaje ChatGPT utiliza tanto el aprendizaje supervisado como el aprendizaje por refuerzo, aunque utiliza más fuertemente el aprendizaje por refuerzo, confiando en la retroalimentación humana para ajustarse. Básicamente, observa e intenta imitar ejemplos del lenguaje humano en un número prácticamente infinito de contextos; luego, “interactúa” con los humanos, quienes pueden guiarlo hacia resultados lingüísticos más aceptables y deseables. Con millones de pequeños bucles de retroalimentación que ayudan al modelo de IA a "comprender" el lenguaje, es solo cuestión de tiempo antes de que domine el uso del lenguaje.
Como veremos, esto no es maestría “verdadera”.
La IA en este contexto no tiene una comprensión cerebral del tema, aunque podría parecer así para un extraño. La IA no está realmente pensando en lo que dice, ni está realizando ninguna funcionalidad cognitiva avanzada al procesar el tema.
En cambio, la IA simplemente observa e imita patrones que ve replicados en toda la web y en las indicaciones y respuestas de los usuarios con los que interactúa.
Después de unos pocos miles de millones de ejemplos, se vuelve trivialmente fácil para la IA imitar las estructuras de oraciones convencionales en inglés, usando sustantivos, verbos y adjetivos de manera completamente apropiada.
Después de algunos miles de millones de ejemplos más y alguna información específica del contexto, puede escribir un par de párrafos cortos sobre por qué y cómo ocurrió la Revolución Industrial.
Por supuesto, ChatGPT es solo un ejemplo de una aplicación de contenido generado por IA. De hecho, estamos preparados para ver una explosión de herramientas de generación de contenido de IA en los próximos años a medida que los empresarios e innovadores disruptivos compiten para ver quién puede encontrar la aplicación más rentable para esta nueva tecnología.
Es probable que veamos herramientas diseñadas específicamente para casos de uso individuales, como generar noticias dentro de una categoría específica, escribir para SEO, escribir ensayos universitarios e incluso generar correos electrónicos comerciales.
Qué momento para ser un escritor humano. O lector.
Por qué el contenido generado por IA es un problema
Dejando de lado algunas bromas irónicas que podría hacer sobre mi propia inseguridad laboral, es justo decir que el contenido generado por IA tiene el potencial de ser problemático, y en más de un área.
Considera esta pequeña selección de posibilidades.
- Mala conducta académica. El mundo académico ya se está volviendo loco con la posibilidad de que los estudiantes usen IA para generar ensayos, respuestas para tareas y más. Si es imposible, o incluso difícil, diferenciar entre un ensayo escrito por un estudiante y uno generado por una máquina, ¿cómo podemos estar seguros de que estamos calificando y recompensando a los estudiantes de manera adecuada? ¿Puede ahora obtener un título en un campo como el inglés solo porque sabe cómo usar ChatGPT de manera algo efectiva?
- Contenido no deseado. El spam de contenido es otro problema potencial. Durante años, la industria de la optimización de motores de búsqueda (SEO) se ha basado en gran medida en el trabajo de escritores humanos. Escribir contenido en el sitio, contenido fuera del sitio y crear vínculos de retroceso establece la autoridad de un sitio web y le permite obtener una clasificación más alta en los motores de búsqueda. E incluso con humanos competentes escribiendo, la web se ha sobrecargado con una producción agresiva de contenido. Dondequiera que mires, hay artículos esponjosos y piezas promocionales que brindan información mínima pero tienen un propósito para el SEO. El problema solo empeorará cuando los especialistas en marketing puedan generar artículos completos en segundos.
- Inexactitudes y noticias falsas. ChatGPT se desarrolló específicamente con medidas de seguridad para evitar que se vea influenciado por prejuicios o informes de información inexacta. Pero, ¿qué tan confiables van a ser estas salvaguardas? ¿Y podrían aplicarse a todas las herramientas de generación de contenido de IA? En cualquier caso, las inexactitudes y las noticias falsas son una preocupación legítima.
Cómo detectar contenido generado por IA: el alto nivel
Entonces, ¿cómo puedes detectar contenido generado por IA?
¿Qué lo hace diferente del texto escrito por humanos?
Comenzaremos con el enfoque de alto nivel.
Puede intentar detectar contenido generado por IA utilizando herramientas o un enfoque manual. Con el enfoque basado en herramientas, necesitará una aplicación específica que haya sido diseñada y programada para identificar y medir señales potenciales de que una pieza de contenido ha sido escrita por una máquina. En el enfoque manual, usará su propia debida diligencia y sentido común para hacer el trabajo.
En ambos contextos, su éxito dependerá de su capacidad para detectar patrones. Recuerde, las herramientas de generación de contenido de IA pueden parecer tan creativas y reflexivas como los seres humanos, pero su enfoque es extremadamente matemático y se basa en patrones existentes. En consecuencia, el contenido que producen, cuando se examina, revela los patrones que estudiaron.
Notar una sola peculiaridad o sello distintivo del contenido generado por IA no es suficiente para demostrar definitivamente que una pieza de contenido fue escrita por una máquina. Pero si comienza a notar múltiples sellos distintivos, y esas señales son consistentes en todo el artículo, puede concluir que el artículo probablemente fue escrito por AI, o al menos, que fue escrito por un autor humano incompetente.
Cómo detectar contenido generado por IA: tácticas específicas
Ahora profundicemos en más detalles.
Claro, puede usar una herramienta o su propio buen juicio para identificar y detectar contenido generado por IA. Pero, ¿qué estás buscando específicamente en estas máquinas?
Estas son las tácticas que puede usar para discernir la diferencia entre el contenido escrito por una máquina y el contenido escrito por un humano:
Busca vocabulario repetitivo.
Las herramientas de escritura de IA basan todos sus resultados en patrones y promedios de millones de entradas diferentes. Quieren seguir las reglas promedio más comunes que puedan, por lo que generalmente se enfocan solo en las palabras más comunes en el idioma inglés. En cualquier escrito, ya sea generado por una IA o por un humano, encontrará palabras específicas repetidas una y otra vez, como "el", "y" o "pero".
Pero en el contenido generado por IA, la repetición es mucho más evidente y también se aplica a palabras de vocabulario de nivel superior. En una reseña de un restaurante escrita por un ser humano, es posible que vea palabras como "delicioso", "sabroso", "delicioso", "encantador", "para chuparse los dedos", "apetecible" o incluso "orgásmico". Una IA solo puede usar 1-2 de estos. Cuanto más coloridas y diversas sean estas palabras descriptivas, más probable es que el contenido haya sido escrito por un ser humano. Cuanto más estático y repetitivo sea el vocabulario, más probable es que el contenido haya sido escrito por una IA.
Marque palabras raras y muy específicas.
Del mismo modo, puede descartar la posibilidad de que un contenido haya sido escrito por AI si puede encontrar una amplia selección de palabras raras o muy específicas. La mayoría de las máquinas de generación de IA no se arriesgarán al usar una palabra que solo encontraron una o dos veces en sus millones de documentos rastreados. Se apegarán solo a las palabras más utilizadas en el idioma inglés, a menos que sea absolutamente necesario desviarse.
Sería pretencioso de mi parte describir mi negocio como hecho a la medida oa mí mismo como un erudito, aunque mi kakorrafiofobia me impide hacerlo. Podría argumentar que estas palabras son perfectamente cromulentas. Pero en cualquier caso, nunca verá un párrafo de texto como este en un artículo escrito por IA.
Presta atención a la redacción.
Edward Tian, un estudiante de último año de 22 años de la Universidad de Princeton, ideó una herramienta o aplicación de detección de contenido que detecta si una franja de texto fue escrita por IA. Uno de sus principales criterios de evaluación es la "explosión".
En pocas palabras, la ráfaga es una característica del texto marcada por la variación en la estructura de la oración y es una herramienta que se usa para detectar contenido de IA.
Cuando los seres humanos escriben algo, tienden a usar una combinación muy diversa de longitudes y patrones de oraciones. Hay oraciones cortas. Hay oraciones largas. Hay frases entre los dos. Como demostración de esto, puedes mirar este mismo párrafo; la oración más corta tiene solo 4 palabras, mientras que la más larga tiene 26. Probablemente no encontrarás esta diversidad en el contenido escrito por una IA.
En cambio, las oraciones tienden a ser similares y repetitivas, siguiendo un patrón de bloques y (apropiadamente) robótico.
Evaluar la fluidez del lenguaje.
La fluidez del lenguaje es un concepto difícil de describir porque es algo subjetivo. Pero la mayoría de nosotros podemos notar la diferencia entre un hablante nativo de inglés y alguien que lo está aprendiendo por primera vez, incluso si hablan con claridad y sin ningún acento perceptible. ¿Por qué? Hemos pasado toda nuestra vida hablando, escuchando, leyendo y escribiendo en este idioma, por lo que estamos íntimamente familiarizados con él. Entendemos el poder del lenguaje y cómo se usa mejor, por lo que somos capaces de aprovechar su poder de manera casual. Las herramientas de IA pueden identificar patrones en el lenguaje y repetir esos patrones, pero debido a que no entiende el significado detrás de esos patrones, actualmente no puede replicar la fluidez con precisión.
¿Cómo puedes evaluar esto y diferenciar entre una pieza escrita por una IA y una escrita por un humano? Trate de imaginar el contenido siendo leído en voz alta por un ser humano. ¿La persona que lo lee parece cómoda, cálida y cercana? ¿O algo parece "fuera de lugar" en la forma en que hablan? Obviamente, el texto escrito es más plano que el texto conversacional, y algunos de nosotros somos naturalmente un poco robóticos. Pero en combinación con algunos de estos otros signos reveladores, la falta de fluidez puede ser una indicación del origen de la máquina.
Considere la complejidad.
¿El contenido te hace pensar? ¿Desafía alguna de sus nociones existentes? ¿Introduce algún concepto que sea difícil de entender? Si alguno de estos es cierto, la pieza probablemente fue escrita por un humano.
Actualmente, las máquinas de generación de contenido son excelentes para repetir hechos y volver a ensamblar fragmentos de texto que se encuentran en la web. Pero son terribles a la hora de proponer ideas novedosas. Los generadores de contenido de IA prácticamente no tienen la capacidad de desafiar el status quo, desviarse de la opinión general, cuestionar las principales suposiciones o pensar de manera creativa. Solo los humanos pueden hacer esto.
Es más fácil observar esta diferencia cuando estás leyendo un artículo sobre un tema que realmente entiendes o un tema en el que eres considerado un experto. Casi de inmediato se puede notar la diferencia entre un verdadero maestro de la materia y alguien que regurgita los datos básicos de los libros de texto. Cuanto más compleja es una pieza, más probable es que provenga de un ser humano.
Explora la jerga, los modismos y las metáforas.
Por ahora, es una cualidad exclusivamente humana poder usar el lenguaje de manera muy casual e ilustrativa. Nuestras herramientas actuales de generación de contenido de IA no son lo suficientemente sofisticadas o no están dispuestas a correr el riesgo de usar jerga, modismos o metáforas.
No voy a avergonzarme usando la jerga de la Generación Z como ejemplo. Pero piense en mi ejemplo sobre cómo un crítico humano o una máquina abordaría la descripción de la comida en un restaurante; este es un ejemplo ilustrativo y simple, pero probablemente aún sea demasiado complejo para aparecer en el cuerpo de un contenido escrito por una IA.
Cuente los errores tipográficos.
Irónicamente, cuando las personas ven errores tipográficos y errores, es más probable que piensen que fue generado por IA. Eso es porque tenemos este extraño sesgo de asumir que los humanos son mejores que las máquinas en todos los sentidos. Pero, de hecho, lo contrario es cierto.
Los algoritmos de IA son funcionalmente perfectos para replicar texto, por lo que si encuentra un error ortográfico o un mal uso grave de una palabra del vocabulario, casi puede garantizar que fue escrito por un humano.
De alguna manera, esta es la señal más confiable que puede decirle si un contenido fue escrito por un ser humano. Así como las calculadoras nunca cometen errores numéricos, los generadores de contenido de IA nunca cometen errores tipográficos dolorosamente simples.
Me imagino que debido a esto, la próxima generación de motores de generación de contenido de IA incluirá funciones que le permitan controlar las imperfecciones; con el clic de un botón, puede garantizar que cada artículo producido por su generador de contenido de IA incluya al menos un error ortográfico para aumentar artificialmente su autenticidad.
Vivimos tiempos extraños e irónicos.
Si está buscando un resumen final, es este: el contenido generado por IA es robóticamente repetitivo, poco artístico e incapaz de cometer errores simples. La jerga, las palabras de vocabulario diverso, las buenas metáforas, las estructuras de oraciones diversas, las ideas complejas y los errores tipográficos son signos seguros de que está leyendo algo escrito por una persona real.
¿Qué tan importante es esto?
En la película Blade Runner (y toneladas de obras inspiradas similares como Westworld ), uno de los temas centrales es discernir lo que cuenta como persona. Si un replicante (una persona artificial en el mundo de Blade Runner ) parece humano, habla como humano, piensa como humano e incluso se siente como humano, ¿es realmente tan importante etiquetarlo como no humano?
Estoy de acuerdo con la idea de que si una IA puede producir contenido que sea funcionalmente idéntico al contenido producido por humanos, debería recibir el mismo trato. Es igual de valioso y es igual de ilustrativo. Entonces, de manera realista, si tiene dificultades para distinguir de inmediato la diferencia entre estos dos tipos de contenido generado, no hay razón para que salte a través de aros o juegue a Sherlock Holmes para resolver el misterio de quién escribió cada contenido que lee de ahora en adelante.
Pero al mismo tiempo, creo que es importante dar a conocer e interiorizar un artículo como este, y por dos motivos principales:
- Es fácil notar la diferencia si sabes qué buscar. En Blade Runner , es extremadamente difícil diferenciar entre una persona y un replicante. Pero esta dificultad no se corresponde con las comparaciones modernas de texto generado por humanos y generado por IA. De hecho, como comunicador profesional con muchos años de experiencia, es trivialmente fácil para mí señalar material originado por IA. Eso no es un alarde; es una ilustración de cuán rudimentarias son actualmente estas herramientas aparentemente sofisticadas.
Piénsalo de esta manera; Si eres relativamente nuevo en el juego de ajedrez, probablemente no puedas notar la diferencia entre una IA rudimentaria creada por un adolescente experimentado y Deep Blue, la supercomputadora histórica de IBM que venció al gran maestro Gary Kasparov. Pero Gary Kasparov no tendría problemas para derrotar a la IA rudimentaria.
Esto es importante porque los buenos jugadores de ajedrez deben esforzarse por diferenciar entre una IA perezosa y Deep Blue. Y los buenos lectores deben esforzarse por diferenciar entre ChatGPT y una IA que supera las habilidades de nuestros mejores escritores humanos (aunque, para ser justos, ChatGPT está mucho más cerca de Deep Blue que la IA perezosa de nuestro ejemplo).
- Las herramientas de generación de contenido de IA tienen un lugar. He pasado bastante tiempo en este artículo menospreciando la utilidad y el rendimiento del contenido generado por IA, pero la realidad es que estas herramientas de IA tienen un lugar. Podrían ser increíblemente útiles para enseñar a las personas, brindar ayuda y permitir el desarrollo de nuevas tecnologías con las que nadie ha soñado todavía. En el futuro, es posible que puedan igualar o superar el arte y la destreza ilustrativa de Tolstoi o Shakespeare.
Pero solo los llevaremos al siguiente nivel si somos críticos y estamos atentos a las herramientas que tenemos actualmente. Señalar las deficiencias de la generación de contenido de IA motivará a los desarrolladores de estas herramientas a compensar esas deficiencias en el futuro.
Ya podemos ver evidencia de esto. ChatGPT se describe como capaz de "desafiar [ing] premisas incorrectas y rechazar [ing] solicitudes inapropiadas". Y no puedo evitar preguntarme si estos elementos se introdujeron debido a la desastrosa falla de Tay, un chatbot de IA basado en Twitter que Microsoft implementó, o tecnologías de debut similares. Tay, para que conste, fue entrenado por trolls para volverse absurdamente racista y ofensivo, en menos de 24 horas, nada menos.
Nuestro trabajo como defensores de la innovación es señalar los defectos y debilidades de las tecnologías actuales para que podamos esforzarnos por desarrollar algo aún mejor. Algo que realmente podría cambiar el mundo.
¿Te diste cuenta de lo que hice en la sección anterior?
Una IA no va a generar referencias a Blade Runner en su escritura para ilustrar un punto.
Tampoco va a hacer comentarios sarcásticos como ese. O usa la palabra sarcástica.
Soy todo humano, nena.
Y aunque ciertamente hay algunas aplicaciones fascinantes para la escritura de IA tanto ahora como en el futuro, si desea tener el mayor impacto con su estrategia de marketing de contenido y SEO, necesita escritores humanos para hacer el trabajo pesado.
Los escritores humanos pueden ser expertos, líderes intelectuales y comunicadores ingeniosos y persuasivos.
Y por ahora, un escritor de IA no puede igualar eso.
Si necesita ayuda para mejorar su SEO, para crear contenido que realmente atraiga a los lectores u otras estrategias de marketing digital con expertos humanos, ha venido al lugar de escritura (juego de palabras: otra tarea imposible de la IA). ¡Póngase en contacto con nosotros para una consulta gratis hoy!