Encuesta: ChatGPT y contenido de IA: ¿puede la gente notar la diferencia?

Publicado: 2023-03-08

¿Puede la gente distinguir entre escritores humanos y de IA? ¿Afecta esto su confianza en las marcas?

La Inteligencia Artificial (IA) ahora puede crear cómodamente imágenes, música y texto que podría haber sido creado por un humano talentoso. El mundo del contenido en línea está experimentando un gran cambio en la década de 2020. Esto se ve fuertemente afectado por el chatbot generativo, ChatGPT, que está creciendo rápidamente y alcanzó su primer millón de usuarios en solo cinco días.

Si bien aquellos interesados en la tecnología pueden saber mucho sobre IA y chatbots como ChatGPT, no es un conocimiento común para todos. De hecho, es posible que algunas personas ni siquiera sepan cuán sofisticada es la producción de las herramientas de inteligencia artificial y si lo que leen en línea fue producido por un humano o por una inteligencia artificial.

Para obtener más información sobre este tema, encuestamos a más de 1900 estadounidenses para ver qué pensaban sobre el contenido de IA en línea, cómo afectó su confianza en las marcas y, en última instancia, si podían distinguir entre IA y contenido humano. Le pedimos a la gente que adivinara si el texto fue creado por IA o por humanos en contenidos de salud, finanzas, entretenimiento, tecnología y viajes. Conozca más sobre la metodología de este estudio aquí.

Esto es lo que piensa el público estadounidense sobre el contenido de IA en línea.

Resultados clave

Más del 53% no puede identificar con precisión el contenido creado exclusivamente por chatbots de IA, como ChatGPT. Esto se eleva al 63,5% cuando se utiliza el modelo GPT-4.0 .
En promedio, el modelo de lenguaje GPT-4.0 es un 16,5% mejor que GPT-3.5 a la hora de convencer a las personas de que la copia generada por IA fue escrita por un humano.
El contenido de salud generado por IA fue el que más engañó a los usuarios : el 56,1% pensó incorrectamente que el contenido de IA fue escrito por un humano o editado por un humano.
Los lectores fueron los que más adivinaron correctamente el contenido generado por IA en el sector tecnológico , el único sector donde más de la mitad (51%) identificó correctamente el contenido generado por IA.
Con GPT-4.0, el contenido tecnológico también se identificó correctamente como el más generado por IA (60,3%) .
El contenido de IA GPT-4.0 fue el más indetectable cuando se trataba de viajes , y el 66,5% de los lectores pensó que el contenido fue escrito por humanos.
Aquellos que están más familiarizados con las herramientas de IA , como ChatGPT, fueron ligeramente mejores en la identificación del contenido de IA ; sin embargo, solo acertaron el 48% de las veces.
Sólo el 40,8% de las personas que no estaban familiarizadas en absoluto con la IA generativa pudieron identificar correctamente el contenido de la IA .
La mayoría de las personas (80,5%) cree que los editores en línea que publican blogs y artículos de noticias deberían indicar explícitamente si la IA estuvo involucrada en su creación.
Más de siete de cada diez (71,3%) dijeron que confiarían menos en una marca si les proporcionaran contenido generado por IA sin que se lo dijeran .
La mayoría de las personas (46,5%) dijeron que estarían de acuerdo con que la IA les asesorara sobre temas financieros y de salud; sin embargo, un 42,9% dijo que solo usarían esos consejos si un humano hubiera editado y revisado el contenido.

¿Puede la gente saber si el texto es creado por IA?

Para responder rápidamente a la pregunta principal de este estudio: no, la gente no puede distinguir entre el contenido de IA y el contenido escrito por humanos .

En promedio, las personas solo pudieron identificar correctamente el contenido escrito por IA el 46,9% de las veces. Al utilizar GPT-4.0 en lugar de GPT-3.5, solo el 36,5% de los lectores pudieron identificar correctamente el contenido escrito por IA.

Esto variaba según el tema del contenido que leían, pero en general, las personas podían identificar la IA casi la mitad de las veces. Esto significa que el contenido de IA es indetectable para más de la mitad de los lectores.

Sin embargo, al profundizar más en esto, podemos ver que el 36,3% de las personas pensaba que el contenido de IA en realidad fue escrito por un humano, mientras que el 16,7% pensaba que era contenido de IA editado posteriormente por un humano.

En última instancia, más de la mitad (53%) leyó contenido escrito por IA y asumió que un humano estuvo involucrado en algún momento; así de convincente puede ser nada más sacarlo de la herramienta antes de que un escritor humano haya agregado estilo y personalidad.

GPT-3.5 vs GPT-4.0: ¿Qué modelo produce una copia más convincente?

La versión original de este estudio se realizó antes del lanzamiento de GPT-4.0 el 14 de marzo de 2023. Después de esto, actualizamos nuestros hallazgos encuestando a los lectores una vez más.

Usamos los mismos temas e indicaciones, pero esta vez encuestamos a los encuestados utilizando contenido producido por ChatGPT con GPT-4.0 en lugar del modelo 3.5.

GPT-3.5 frente a GPT-4.0

Descubrimos que hubo un aumento del 16,5% en la cantidad de personas que pensaban que el contenido generado por IA fue creado por humanos cuando usamos GPT-4.0.

Al utilizar GPT-3.5, descubrimos que el 53,1 % de las personas pensaba que la redacción publicitaria de ChatGPT era humana, mientras que al utilizar GPT-4.0, encontramos que el 63,5 % de las personas creía que el contenido fue creado o editado por un escritor humano.

¿ChatGPT es mejor para escribir sobre determinados temas?

Una pregunta que este estudio intentó responder es si ChatGPT es mejor para escribir contenido más humano basado en diferentes temas. Según nuestros hallazgos, parece que el chatbot de IA es mejor a la hora de redactar contenidos de salud más convincentes y su redacción tecnológica es más fácil de detectar para el público en general.

A continuación se ofrece una descripción general de cómo el público en general percibió el contenido de IA al generar texto sobre diferentes temas:

¿Quién escribió el contenido generado por ChatGPT?
	AI	Humano	IA, editada por un humano
tecnología	51,05%	32,97%	15,98%
Entretenimiento	47,28%	36,30%	16,41%
Viajar	46,72%	36,80%	16,50%
Finanzas	45,75%	37,17%	17,07%
Salud	43,94%	38,40%	17,70%

Como este estudio se actualizó desde entonces, también podemos comparar los resultados de GPT-3.5 y GPT-4.0 en lo que respecta al contenido sobre diferentes temas. Al igual que GPT-3.5, cuando utilizamos GPT-4.0, el modelo de lenguaje fue el que más se detectó en contenido tecnológico (39,7%).

El contenido de viajes fue el más indetectable en lo que respecta a GPT-4.0, ya que el 66,5% de los lectores creía que era humano o editado por humanos. Mientras que el contenido de salud fue el más indetectable en lo que respecta a GPT-3.5 (56,1%).

¿Qué tan creíble es la copia generada por ChatGPT?

La siguiente tabla revela el porcentaje de personas que pensaron que la copia generada por ChatGPT fue realizada por una IA, un humano o editada por un humano tanto en GPT-3.5 como en GPT-4.0.

	GPT-3.5	GPT-4.0	GPT-3.5	GPT-4.0
	AI	AI	Humano o editado por humanos	Humano o editado por humanos
tecnología	51,1%	39,7%	49,0%	60,3%
Entretenimiento	47,3%	34,1%	52,7%	65,9%
Viajar	46,7%	33,5%	53,3%	66,5%
Finanzas	45,8%	36,8%	54,2%	63,2%
Salud	43,9%	37,8%	56,1%	62,2%

A continuación, desglosamos más los sectores para que pueda ver qué tan bien ChatGPT produce contenido que suena humano sobre diferentes temas.

Cuanto más familiarizado esté con las herramientas de IA, más probabilidades tendrá de detectar contenido de IA... pero sólo ligeramente

Aquellos que dijeron que estaban familiarizados con las herramientas de IA, como ChatGPT, fueron ligeramente mejores en la búsqueda de contenido de IA; sin embargo, solo acertaron el 48% de las veces.

Esta capacidad de identificar la escritura de IA cae entre un 7,2% y un 40,8% cuando se observa a personas que afirmaron que nunca habían oído hablar de la IA generativa, lo que indica que las personas pueden adquirir la capacidad de ver tendencias y patrones en el contenido generado por IA.

En general, no hubo diferencias estadísticas entre hombres y mujeres en la detección de contenido de IA.

¿Qué tan convincente es la escritura con IA en diferentes industrias?

Nuestro estudio encuestó a personas sobre si el contenido que estaban leyendo fue creado por una IA o no en cinco sectores clave. A continuación se desglosa la puntuación de las personas en cada género de contenido: entretenimiento, finanzas, viajes, tecnología y salud.

Los lectores podrían detectar más la IA en el contenido tecnológico

Nuestras preguntas sobre tecnología brindaron a los usuarios respuestas a consultas sobre teléfonos celulares, hardware de computadora, tecnología inteligente, inteligencia artificial y proveedores de Internet.

En promedio, el 51% de los usuarios pudo adivinar correctamente si las respuestas escritas por IA definitivamente fueron creadas por IA, mientras que un tercio (33%) pensó que el mismo contenido fue creado por humanos. El 16% restante no estaba seguro y suponía que se trataba de una forma de contenido de IA editado posteriormente por humanos.

En general, el contenido tecnológico tuvo el porcentaje más alto (51%) de usuarios que identificaron correctamente el contenido de IA. Las mujeres tenían ligeramente más probabilidades que los hombres de identificar correctamente el contenido tecnológico escrito por IA (52,4% frente a 49,9%).

En lo que respecta al contenido tecnológico escrito por humanos, solo el 36% de las personas pudo identificar que fue escrito por un humano, y la mayoría (48,4%) estaba convencida de que lo había escrito IA; el 15,6% restante pensó incorrectamente que probablemente un humano lo había editado. Contenido escrito por IA.

El contenido de entretenimiento escrito por IA tiene más probabilidades de engañar a los jóvenes de entre 18 y 24 años

En lo que respecta a la escritura sobre entretenimiento, específicamente secciones de texto que tratan sobre películas, teatro, videojuegos, streaming y música, el 47,3% de los encuestados pudo identificar correctamente el contenido de IA. Los que tenían entre 18 y 24 años eran más propensos a pensar que el contenido escrito por IA fue escrito por un humano (41,1%) en comparación con el promedio general del 36,3%.

En lo que respecta al contenido de entretenimiento escrito por humanos, se siguió una tendencia similar: una gran mayoría (44,8%) pensó que debía haber sido escrito por una IA, y un poco menos (38,9%) adivinó correctamente que se trataba de un escritor humano.

Esta confusión sigue la tendencia general de que las personas no pueden distinguir entre la IA y el contenido escrito por humanos.

Viajar

En lo que respecta a la redacción de viajes en línea, evaluamos a los encuestados con contenido sobre cómo encontrar vuelos y hoteles asequibles, cómo prepararse para viajes al aire libre, consejos para alquilar autos y opiniones sobre el uso de agentes de viajes.

En promedio casi exacto, el 47% de las personas identificó correctamente el texto de la IA, pero el 35,9% dijo que fue escrito por un humano.

Sin embargo, el contenido de viajes creado por humanos polarizó mucho a los lectores. La mayoría (41,6%) adivinó correctamente que el texto fue escrito por un humano y no por una IA, sin embargo, una cantidad similar (40,5%) de lectores pensó que el mismo contenido tenía que haber sido creado por una IA.

Finanzas

Las personas pudieron detectar bien el contenido de IA cuando se trataba de contenido financiero, acertando alrededor del 45,8% de las veces; sin embargo, el 37,2% todavía pensaba que el mismo texto de IA tenía que ser elaborado por un humano.

En lo que respecta al contenido escrito por humanos, el 42,5% confiaba en que fue escrito por una IA, mientras que el 40,5% adivinó correctamente que fue creado por una mente humana.

Los contenidos de salud generados por IA lograron engañar al 53,1% de los usuarios

En lo que respecta al contenido de salud, les dimos a los usuarios información sobre los costos del reemplazo de cadera, los peligros del paracetamol, las condiciones de salud mental, los planes de acondicionamiento físico y los exámenes de salud preventivos.

En este caso, la mayor parte de lectores del estudio (38,4%) pensó que el contenido de IA fue escrito por un humano, mientras que el 43,9% confiaba en que se trataba de IA. El 17,7% restante creía que se trataba de un texto de IA editado por humanos.

El contenido de salud creado por humanos y revisado por profesionales médicos no convenció a los lectores. En general, el contenido creado por humanos en esta área hizo que la mayoría de las personas (44,9%) pensara que fue generado por IA, mientras que el 37,9% pensó que lo creó un humano. Curiosamente, esto significa que un poco más de personas pensaron que el contenido de salud de la IA era más humano que el contenido real escrito por humanos.

De los cinco sectores que revisamos en este estudio, el contenido de salud generado por IA es el que más confunde a los usuarios. Esto podría ser muy peligroso a medida que avanzamos hacia un mundo donde la IA probablemente se insertará en más áreas de nuestras vidas, incluida la atención médica.

Los más jóvenes tienen más dificultades para identificar el contenido de IA

En todo el estudio, en general, los encuestados más jóvenes fueron los que peores identificaron el contenido escrito por IA , y solo 2 de cada 5 (40,2%) de los jóvenes de 18 a 24 años adivinaron correctamente. Mientras que los mayores de 65 años fueron más cínicos e identificaron correctamente el contenido de IA más de la mitad de las veces (52%).

¿Cuántas personas pueden identificar el contenido de IA?

¿La gente confía en el contenido escrito por IA?

Si los editores de contenido, como blogueros, periódicos y revistas publicaran contenido de IA sin decírselo a los usuarios (lo que algunos han hecho, a veces incluso lleno de errores), queríamos saber qué pensaría el lector cotidiano al respecto.

La mayoría de nuestros encuestados (80,5%) dijeron que creen que la divulgación de IA debería ser la norma en línea y que los editores deberían concienciar a la gente.

¿La gente confía en las marcas con contenido de IA?

No sorprende entonces que el 71,3% también dijera que confiaría menos en una marca si publicara contenido de IA sin decirlo explícitamente. Sin embargo, el 28,7% restante dijo que esto no afectaría su confianza en una marca, lo que indica que tal vez no todos necesiten que se les diga de dónde proviene su contenido en línea.

En cuanto al impacto que estas revelaciones podrían tener en los lectores, la historia fue similar. Una mayoría ligeramente menor (67,8%) dijo que confiaría más en una marca si las revelaciones de IA estuvieran presentes en un contenido en línea, mientras que poco menos de un tercio (32,2%) dijo que no afectaría su confianza de manera positiva o negativa.

En general, los datos indican que la mayoría de la gente favorecería las marcas que revelen explícitamente cómo y dónde se ha utilizado la IA para crear su contenido. Aún está por verse si esto se convertirá en la norma en el mundo del contenido en línea.

Metodología

Se encuestó a 1.920 adultos estadounidenses de todos los rangos de edad y se les pidió que decidieran si un fragmento de texto fue creado por IA, un humano o una IA y editado por un humano. Esto se preguntó en 75 textos únicos y se recopilaron 3166 respuestas para este análisis. Los datos de la encuesta se recopilaron del 20/02/2023 al 26/02/2023.

A los encuestados se les preguntó qué tan familiarizados estaban con la IA y su contenido. La mayoría de las personas en esta encuesta habían probado algún tipo de herramienta de inteligencia artificial al menos una vez, esto incluye ChatGPT, pero es posible que no sea ChatGPT.

El 57,1% de nuestra audiencia había probado algún tipo de herramienta de IA generativa al menos una vez.
El 41,1% había oído hablar de él de alguna forma pero nunca lo había utilizado personalmente.
El 1,8% nunca había oído hablar de ninguna IA generativa antes de participar en la encuesta.

En el análisis se utilizaron 25 preguntas con tres respuestas por pregunta: una de IA (ChatGPT), una escrita por un periodista humano y otra creada por IA y luego editada por un redactor profesional humano. Las preguntas y respuestas fueron completamente aleatorias entre los usuarios para que no pudieran ver más de una respuesta por pregunta.

El contenido se eligió seleccionando preguntas muy buscadas (determinadas por el volumen de búsqueda de Google) en los sectores de entretenimiento, finanzas, tecnología, viajes y salud.

A ChatGPT se le dieron indicaciones para escribir como un experto sobre el tema relevante (por ejemplo, un periodista de viajes o un gerente financiero) y explicar las respuestas "simplemente". Se eliminó el contenido de la respuesta de la IA si hacía evidente que fue escrita por una IA, como por ejemplo "Está bien, fingiré ser un gerente financiero y esto es lo que diría". El contenido escrito por humanos provino de sitios de expertos que habían creado contenido en profundidad sobre la pregunta respectiva. Los sitios que habían revelado el uso de IA en su contenido no se utilizaron para este análisis. Aquí se pueden encontrar ejemplos de las preguntas y respuestas dadas a los encuestados.

Actualización de GPT-4.0 para estudiar

Para evaluar las capacidades de GPT-4.0 en ChatGPT, encuestamos a 1394 adultos estadounidenses entre el 22 y el 25 de marzo de 2023. Se les hicieron las mismas preguntas sobre si pensaban que un texto fue producido por una IA, un humano o editado por un humano. Los temas y consultas fueron los mismos que los del estudio GPT-3.5; se dan ejemplos en la hoja de cálculo anterior.

Otros recursos de IA

¡Incluso puedes usar IA para ayudarte a crear un sitio web hoy en día! Consulte nuestra guía de los mejores creadores de sitios web de IA para obtener más información.

Este trabajo está bajo una licencia Creative Commons Attribution 4.0 International.