调查:ChatGPT 和 AI 内容——人们能区分吗?
已发表: 2023-03-08人们能否区分人类作家和人工智能作家之间的区别,这是否会影响他们对品牌的信任?
人工智能 (AI) 现在可以轻松地创建本来可以由有才华的人制作的图像、音乐和文本。 2020 年代,在线内容世界正在发生巨大转变。 这受到生成式聊天机器人 ChatGPT 的严重影响,该机器人正在迅速增长,在短短五天内就达到了第一个 100 万用户。
虽然那些对科技感兴趣的人可能对人工智能和 ChatGPT 等聊天机器人了解很多,但这并不是每个人的常识。 事实上,有些人甚至可能不知道人工智能工具的输出有多复杂,也不知道他们在线阅读的内容是由人类还是人工智能产生的。
为了了解有关此主题的更多信息,我们对 1,900 多名美国人进行了调查,了解他们对在线人工智能内容的看法、它如何影响他们对品牌的信任,以及最终他们是否能够区分人工智能和人类内容之间的区别。 我们要求人们猜测健康、金融、娱乐、技术和旅游内容中的文本是由人工智能还是人类创建的。 在此了解有关本研究方法的更多信息。
以下是美国公众对在线人工智能内容的看法。
主要发现
- 超过 53% 的人无法准确识别纯粹由人工智能聊天机器人(例如 ChatGPT)制作的内容。 当使用 GPT-4.0 模型时,这一比例上升至 63.5% 。
- 平均而言,在说服人们人工智能生成的副本是由人类编写的方面,GPT-4.0 语言模型比 GPT-3.5 好 16.5% 。
- AI生成的健康内容最容易欺骗用户,56.1%的人错误地认为AI内容是由人类编写或由人类编辑的。
- 科技领域的读者正确猜测人工智能生成的内容最多,这是唯一超过一半 (51%) 正确识别人工智能生成内容的领域。
- 使用GPT-4.0,技术内容也被正确识别为 AI 生成的内容最多(60.3%) 。
- GPT-4.0人工智能内容在旅行方面是最不易察觉的, 66.5%的读者认为该内容是由人类编写的。
- 那些更熟悉 AI工具(例如 ChatGPT)的人在识别 AI 内容方面略胜一筹,但正确率仍然只有 48% 。
- 在完全不熟悉生成式人工智能的人中,只有 40.8%的人能够正确识别人工智能内容。
- 大多数人(80.5%)认为发布博客和新闻文章的在线出版商应该明确说明人工智能是否参与其创作。
- 超过十分之七(71.3%)的人表示,如果在没有告知的情况下向他们提供人工智能生成的内容,他们会降低对品牌的信任度。
- 大多数人 (46.5%)表示,他们同意人工智能就健康和财务主题向他们提供建议,但也有 42.9% 的人表示,只有在人工编辑和审查内容的情况下,他们才会使用此类建议。
人们能辨别文本是否是由人工智能创建的吗?
快速回答这项研究的主要问题:不,人们无法区分人工智能内容和人类编写的内容之间的区别。
平均而言,人们只能在46.9%的时间内正确识别人工智能编写的内容。 当使用 GPT-4.0 而不是 GPT-3.5 时,只有36.5%的读者能够正确识别 AI 编写的内容。
这因他们正在阅读的内容主题而异,但一般来说,人们几乎有一半的时间可以识别人工智能。 这确实意味着超过一半的读者无法察觉人工智能内容。
然而,进一步深入研究,我们可以发现,36.3%的人认为人工智能内容实际上是由人类编写的,而16.7%的人认为这是人工智能内容后来由人类编辑的。
最终,超过一半(53%)的人阅读了人工智能撰写的内容,并假设在某个时刻有人参与其中——这就是在人类作家添加任何才华和个性之前直接从工具中出来的令人信服的地方。
GPT-3.5 与 GPT-4.0:哪种模型产生的文案更有说服力?
这项研究的原始版本是在 2023 年 3 月 14 日 GPT-4.0 发布之前进行的。此后,我们再次通过对读者进行民意调查来更新我们的研究结果。
我们使用相同的主题和提示,但这次使用 ChatGPT 与 GPT-4.0(而不是 3.5 模型)生成的内容来调查受访者。
我们发现,当我们使用 GPT-4.0 时,认为人工智能生成的内容是人类制作的人数增加了 16.5%。
使用 GPT-3.5,我们发现 53.1% 的人认为 ChatGPT 文案是人类撰写的,而使用 GPT-4.0,我们发现 63.5% 的人认为内容是由人类作家创建或编辑的。
ChatGPT 是否更擅长撰写某些主题?
这项研究试图回答的一个问题是 ChatGPT 是否更擅长根据不同主题编写更人性化的内容。 从我们的研究结果来看,人工智能聊天机器人似乎更擅长编写更有说服力的健康内容,而且其技术写作更容易被公众发现。
以下概述了公众在生成不同主题的文本时如何看待人工智能内容:
谁编写了 ChatGPT 生成的内容? | |||
---|---|---|---|
人工智能 | 人类 | 人工智能,由人类编辑 | |
科技 | 51.05% | 32.97% | 15.98% |
娱乐 | 47.28% | 36.30% | 16.41% |
旅行 | 46.72% | 36.80% | 16.50% |
金融 | 45.75% | 37.17% | 17.07% |
健康 | 43.94% | 38.40% | 17.70% |
由于这项研究已经更新,我们还可以在不同主题的内容方面比较 GPT-3.5 和 GPT-4.0 的结果。 就像GPT-3.5一样,当我们使用GPT-4.0时,语言模型在技术含量方面被检测到最多(39.7%)。
在 GPT-4.0 中,旅游内容是最不易察觉的,因为 66.5% 的读者认为它是人类或人类编辑的。 而在 GPT-3.5 中,健康内容是最难以检测到的(56.1%)。
ChatGPT 生成的副本有多可信?
下表显示了在 GPT-3.5 和 GPT-4.0 中认为 ChatGPT 生成的副本是由人工智能、人类制作或由人类编辑的人所占的百分比。
GPT-3.5 | GPT-4.0 | GPT-3.5 | GPT-4.0 | |
---|---|---|---|---|
人工智能 | 人工智能 | 人工或人工编辑 | 人工或人工编辑 | |
科技 | 51.1% | 39.7% | 49.0% | 60.3% |
娱乐 | 47.3% | 34.1% | 52.7% | 65.9% |
旅行 | 46.7% | 33.5% | 53.3% | 66.5% |
金融 | 45.8% | 36.8% | 54.2% | 63.2% |
健康 | 43.9% | 37.8% | 56.1% | 62.2% |
下面我们进一步细分了各个部分,以便您可以看到 ChatGPT 在不同主题上生成听起来人类化的内容的效果如何。

你对人工智能工具越熟悉,你就越有可能检测到人工智能内容……但只是轻微的
那些自称熟悉 ChatGPT 等 AI 工具的人在查找 AI 内容方面略胜一筹,但他们的正确率仍然只有 48%。
当观察那些表示从未听说过生成式人工智能的人时,识别人工智能写作的能力下降了 7.2% 至 40.8%,这表明人们可以获得看到人工智能生成内容中的趋势和模式的能力。
总体而言,男性和女性在人工智能内容检测方面没有统计学差异。
AI写作在不同行业的说服力如何
我们的研究针对五个关键领域的人们所阅读的内容是否由人工智能制作进行了民意调查。 以下是人们在娱乐、金融、旅行、技术和健康等各类内容中得分的细分。
读者最容易在科技内容中发现人工智能
我们的技术问题为用户提供了有关手机、计算机硬件、智能技术、人工智能和互联网提供商的疑问的答案。
平均而言,51% 的用户能够正确猜测人工智能编写的答案是否肯定是由人工智能创建的,而三分之一 (33%) 的用户认为相同的内容是由人类编写的。 剩下的 16% 则不确定,猜测这是一种后来由人类编辑的人工智能内容。
总体而言,正确识别人工智能内容的用户比例最高(51%)。 女性正确识别人工智能编写的技术内容的可能性略高于男性(52.4% vs. 49.9%)。
当谈到人类编写的技术内容时,只有 36% 的人能够识别出它是由人类编写的,大多数人 (48.4%) 相信是人工智能编写的,剩下的 15.6% 错误地认为可能是人类编辑的AI 编写的内容。
AI编写的娱乐内容最有可能欺骗18-24岁的人
当涉及娱乐写作时,特别是讨论电影、戏剧、视频游戏、流媒体和音乐的文本部分,47.3%的受访者能够正确识别人工智能内容。 18-24 岁的人最有可能认为人工智能编写的内容是由人类编写的 (41.1%),而总体平均值为 36.3%。
当谈到人类编写的娱乐内容时,也出现了类似的趋势,大多数人(44.8%)认为它一定是由人工智能编写的,只有少数人(38.9%)正确地猜测它是人类作家。
这种混乱遵循了人们无法完全区分人工智能和人类编写内容之间的区别的总体趋势。
旅行
在在线旅行写作方面,我们测试了受访者的内容,包括寻找实惠的航班和酒店、准备户外旅行、租车技巧以及使用旅行社的意见。
几乎完全平均,47% 的人正确识别了人工智能文本,但 35.9% 的人认为它是由人类编写的。
然而,人造旅行内容却让读者两极分化严重。 大多数(41.6%)正确地猜测文本是由人类而不是人工智能编写的,但是相似数量(40.5%)的读者认为相同的内容必须由人工智能编写。
金融
当涉及到金融内容时,人们能够很好地识别人工智能内容,正确率约为 45.8%,但是,37.2% 的人仍然认为相同的人工智能文本必须由人类编写。
当谈到人类编写的内容时,42.5% 的人相信它是由人工智能编写的,而 40.5% 的人正确猜测它是由人类大脑创建的。
AI生成的健康内容成功欺骗了53.1%的用户
在健康内容方面,我们为用户提供了有关髋关节置换费用、扑热息痛的危险、心理健康状况、健身计划和预防性健康检查的文章。
在这种情况下,研究中最高比例的读者 (38.4%) 认为人工智能内容是由人类编写的,而 43.9% 的读者相信它是人工智能。 剩下的 17.7% 认为这是人工编辑的人工智能文本。
由人类创建并由医疗专业人员审核的健康内容并没有赢得读者。 一般来说,该领域的人造内容大多数人(44.9%)认为它是由人工智能生成的,而37.9%的人认为它是人类创造的。 有趣的是,这意味着更多的人认为人工智能健康内容比实际的人类编写的内容更人性化。
在我们研究的五个领域中,人工智能生成的健康内容最让用户困惑。 当我们走向一个人工智能可能会融入我们生活的更多领域(包括医疗保健)的世界时,这可能是非常危险的。
年轻人在识别人工智能内容方面更加困难
在整个研究中,一般来说,最年轻的受访者在识别人工智能编写的内容方面最差,18-24 岁的受访者中只有五分之二 (40.2%) 能够猜对。 而 65 岁以上的人则更加愤世嫉俗,并且在超过一半的时间(52%)正确识别了人工智能内容。
人们信任人工智能编写的内容吗?
如果博主、报纸和杂志等内容出版商在不告诉用户的情况下发布人工智能内容(有些人已经这样做了,有时甚至充满了错误),我们想知道日常读者对此有何看法。
大多数受访者(80.5%)表示,他们认为人工智能披露应该成为网上的常态,出版商应该让人们意识到这一点。
毫不奇怪,71.3% 的人还表示,如果某个品牌在没有明确说明的情况下发布了人工智能内容,他们就会降低对它的信任度。 然而,剩下的 28.7% 表示这不会影响他们对品牌的信任,这表明也许并不是每个人都需要被告知他们的在线内容来自哪里。
当谈到这些披露可能对读者产生的影响时,情况是相似的。 略少的大多数人 (67.8%) 表示,如果在线内容中存在人工智能披露,他们会更加信任某个品牌,而不到三分之一 (32.2%) 的人表示这不会对他们的信任产生积极或消极的影响。
总体而言,数据表明,大多数人会青睐那些明确揭示人工智能如何以及在何处创建内容的品牌。 这是否会成为在线内容世界的常态还有待观察。
方法
对 1,920 名各个年龄段的美国成年人进行了调查,并要求判断一段文本是由人工智能、人类创建,还是由人工智能并由人类编辑。 我们对 75 段独特的文本进行了询问,并收集了 3,166 条回复用于此分析。 调查数据收集时间为 2023 年 2 月 20 日至 2023 年 2 月 26 日。
调查受访者被问及他们对人工智能和人工智能内容的熟悉程度。 本次调查中的大多数人至少尝试过某种形式的人工智能工具,其中包括 ChatGPT,但可能不是 ChatGPT。
- 57.1% 的观众至少尝试过一次某种形式的生成式人工智能工具
- 41.1% 的人以某种形式听说过它,但从未亲自使用过
- 1.8% 在参与调查之前从未听说过任何生成式人工智能
分析中使用了 25 个问题,每个问题有 3 个答案:一个来自人工智能 (ChatGPT),一个由人类记者撰写,另一个由人工智能创建,然后由人类专业文案编辑编辑。 问题和答案在用户之间完全随机,因此每个问题他们看不到多个答案。
内容是通过选择娱乐、金融、技术、旅游和健康领域的热门搜索问题(由 Google 搜索量决定)来选择的。
ChatGPT 被提示以相关主题的专家(例如旅游记者或财务经理)的身份进行写作,并“简单地”解释答案。 如果内容明显是由人工智能编写的,例如“好吧,我会假装是一名财务经理,这就是我要说的”,那么内容就会从人工智能答案中删除。 人工编写的内容来自专家网站,这些网站对相应问题进行了深入的内容。 任何在其内容中披露人工智能使用的网站均未用于此分析。 您可以在此处找到向调查受访者提出的问题和答复的示例。
GPT-4.0更新学习
为了评估 ChatGPT 中 GPT-4.0 的功能,我们在 2023 年 3 月 22 日至 3 月 25 日期间对 1,394 名美国成年人进行了调查。他们被问到同样的问题,即他们是否认为文本是由人工智能、人类生成的,还是由人工智能编辑的。一个人。 主题和查询与 GPT-3.5 研究相同,上面的电子表格中给出了示例。
其他人工智能资源
如今,您甚至可以使用人工智能来帮助您创建网站! 请查看我们的最佳人工智能网站构建器指南以获取更多信息。

本作品根据 Creative Commons Attribution 4.0 International License 获得许可。