調查：ChatGPT 和 AI 內容－人們能區分嗎？

已發表: 2023-03-08

人們能否區分人類作家和人工智慧作家之間的區別，這是否會影響他們對品牌的信任？

人工智慧 (AI) 現在可以輕鬆地創建本來可以由有才華的人製作的圖像、音樂和文字。 2020 年代，線上內容世界正在發生巨大轉變。這受到生成式聊天機器人 ChatGPT 的嚴重影響，該機器人正在迅速成長，在短短五天內就達到了第一個 100 萬用戶。

雖然那些對科技感興趣的人可能對人工智慧和 ChatGPT 等聊天機器人了解很多，但這並不是每個人的常識。事實上，有些人甚至可能不知道人工智慧工具的輸出有多複雜，也不知道他們在線上閱讀的內容是由人類還是人工智慧產生的。

為了了解有關此主題的更多信息，我們對1,900 多名美國人進行了調查，了解他們對在線人工智能內容的看法、它如何影響他們對品牌的信任，以及最終他們是否能夠區分人工智能和人類內容之間的區別。我們要求人們猜測健康、金融、娛樂、科技和旅遊內容中的文字是由人工智慧還是人類創造的。在此了解有關本研究方法的更多資訊。

以下是美國大眾對線上人工智慧內容的看法。

主要發現

超過 53% 的人無法準確地識別純粹由人工智慧聊天機器人（例如 ChatGPT）製作的內容。 當使用 GPT-4.0 模型時，這一比例上升至 63.5% 。
平均而言，在說服人們人工智慧產生的副本是由人類編寫的方面，GPT-4.0 語言模型比 GPT-3.5 好 16.5% 。
AI產生的健康內容最容易欺騙用戶，56.1%的人錯誤地認為AI內容是由人類編寫或由人類編輯的。
科技領域的讀者正確猜測人工智慧產生的內容最多，這是唯一超過一半 (51%) 正確辨識人工智慧生成內容的領域。
使用GPT-4.0，技術內容也被正確識別為 AI 產生的內容最多（60.3%） 。
GPT-4.0人工智慧內容在旅行方面是最不易察覺的， 66.5%的讀者認為該內容是由人類編寫的。
那些更熟悉 AI工具（例如 ChatGPT）的人在識別 AI 內容方面略勝一籌，但正確率仍然只有 48% 。
在完全不熟悉生成式人工智慧的人中，只有 40.8%的人能夠正確辨識人工智慧內容。
大多數人（80.5%）認為發布部落格和新聞文章的線上出版商應該明確說明人工智慧是否參與其創作。
超過十分之七(71.3%)的人表示，如果在沒有告知的情況下向他們提供人工智慧生成的內容，他們會降低對品牌的信任度。
大多數人 (46.5%)表示，他們同意人工智慧就健康和財務主題向他們提供建議，但也有 42.9% 的人表示，只有在人工編輯和審查內容的情況下，他們才會使用此類建議。

人們能辨別文本是否是由人工智慧創造的嗎？

快速回答這項研究的主要問題：不，人們無法區分人工智慧內容和人類所寫的內容之間的差異。

平均而言，人們只能在46.9%的時間內正確識別人工智慧編寫的內容。當使用 GPT-4.0 而非 GPT-3.5 時，只有36.5%的讀者能夠正確辨識 AI 所寫的內容。

這因他們正在閱讀的內容主題而異，但一般來說，人們幾乎有一半的時間可以識別人工智慧。這確實意味著超過一半的讀者無法察覺人工智慧內容。

然而，進一步深入研究，我們可以發現，36.3%的人認為人工智慧內容實際上是由人類編寫的，而16.7%的人認為這是人工智慧內容後來由人類編輯的。

最終，超過一半（53%）的人閱讀了由人工智慧撰寫的內容，並假設在某個時刻有人參與其中——這就是在人類作家添加任何才華和個性之前直接從工具中出來的令人信服的地方。

GPT-3.5 與 GPT-4.0：哪一種模型產生的文案較具說服力？

這項研究的原始版本是在 2023 年 3 月 14 日 GPT-4.0 發布之前進行的。此後，我們再次透過對讀者進行民意調查來更新我們的研究結果。

我們使用相同的主題和提示，但這次使用 ChatGPT 與 GPT-4.0（而不是 3.5 模型）產生的內容來調查受訪者。

GPT-3.5 與 GPT-4.0

我們發現，當我們使用 GPT-4.0 時，認為人工智慧產生的內容是人類製作的人數增加了 16.5%。

使用 GPT-3.5，我們發現 53.1% 的人認為 ChatGPT 文案是人類撰寫的，而使用 GPT-4.0，我們發現 63.5% 的人認為內容是由人類作家創建或編輯的。

ChatGPT 是否更擅長撰寫某些主題？

這項研究試圖回答的一個問題是 ChatGPT 是否更擅長根據不同主題編寫更人性化的內容。從我們的研究結果來看，人工智慧聊天機器人似乎更擅長編寫更有說服力的健康內容，而且其技術寫作更容易被大眾發現。

以下概述了公眾在生成不同主題的文本時如何看待人工智慧內容：

誰寫了 ChatGPT 產生的內容？
	人工智慧	人類	人工智慧，由人類編輯
科技	51.05%	32.97%	15.98%
娛樂	47.28%	36.30%	16.41%
旅行	46.72%	36.80%	16.50%
金融	45.75%	37.17%	17.07%
健康	43.94%	38.40%	17.70%

由於這項研究已經更新，我們也可以在不同主題的內容方面比較 GPT-3.5 和 GPT-4.0 的結果。就像GPT-3.5一樣，當我們使用GPT-4.0時，語言模型在技術含量方面被檢測到最多（39.7％）。

在 GPT-4.0 中，旅遊內容是最不易察覺的，因為 66.5% 的讀者認為它是人類或人類編輯的。而在 GPT-3.5 中，健康內容是最難被偵測到的（56.1%）。

ChatGPT 產生的副本有多可信？

下表顯示了在 GPT-3.5 和 GPT-4.0 中認為 ChatGPT 產生的副本是由人工智慧、人類製作或由人類編輯的人所佔的百分比。

	GPT-3.5	GPT-4.0	GPT-3.5	GPT-4.0
	人工智慧	人工智慧	人工或人工編輯	人工或人工編輯
科技	51.1%	39.7%	49.0%	60.3%
娛樂	47.3%	34.1%	52.7%	65.9%
旅行	46.7%	33.5%	53.3%	66.5%
金融	45.8%	36.8%	54.2%	63.2%
健康	43.9%	37.8%	56.1%	62.2%

下面我們進一步細分了各個部分，以便您可以看到 ChatGPT 在不同主題上產生聽起來人類化的內容的效果如何。

你對人工智慧工具越熟悉，就越有可能偵測到人工智慧內容……但只是輕微的

自稱熟悉 ChatGPT 等 AI 工具的人在尋找 AI 內容方面略勝一籌，但他們的正確率仍然只有 48%。

當觀察那些表示從未聽說過生成式人工智慧的人時，識別人工智慧寫作的能力下降了 7.2% 至 40.8%，這表明人們可以獲得看到人工智慧生成內容中的趨勢和模式的能力。

整體而言，男性和女性在人工智慧內容檢測方面沒有統計學差異。

AI寫作在不同產業的說服力如何

我們的研究針對五個關鍵領域的人們所閱讀的內容是否由人工智慧製作進行了民意調查。以下是人們在娛樂、金融、旅行、科技和健康等各類內容中得分的細分。

讀者最容易在科技內容中發現人工智慧

我們的技術問題為用戶提供了有關手機、電腦硬體、智慧技術、人工智慧和互聯網提供商的疑問的答案。

平均而言，51% 的用戶能夠正確猜測人工智慧編寫的答案是否肯定是由人工智慧創建的，而三分之一 (33%) 的用戶認為相同的內容是由人類編寫的。剩下的 16% 則不確定，猜測這是一種後來由人類編輯的人工智慧內容。

整體而言，正確識別人工智慧內容的使用者比例最高（51%）。女性正確識別人工智慧編寫的技術內容的可能性略高於男性（52.4% vs. 49.9%）。

當談到人類編寫的技術內容時，只有36% 的人能夠識別出它是由人類編寫的，大多數人(48.4%) 相信是人工智慧編寫的，剩下的15.6% 錯誤地認為可能是人類編輯的AI 所寫的內容。

AI編寫的娛樂內容最有可能欺騙18-24歲的人

當涉及娛樂寫作時，特別是討論電影、戲劇、電玩、串流媒體和音樂的文字部分，47.3%的受訪者能夠正確識別人工智慧內容。 18-24 歲的人最有可能認為人工智慧編寫的內容是由人類編寫的 (41.1%)，而總體平均值為 36.3%。

當談到人類編寫的娛樂內容時，也出現了類似的趨勢，大多數人（44.8%）認為它一定是由人工智慧編寫的，只有少數人（38.9%）正確地猜測它是人類作家。

這種混亂遵循了人們無法完全區分人工智慧和人類編寫內容之間的區別的總體趨勢。

旅行

在線上旅遊寫作方面，我們測試了受訪者的內容，包括尋找實惠的航班和酒店、準備戶外旅行、租車技巧以及使用旅行社的意見。

幾乎完全平均，47% 的人正確識別了人工智慧文本，但 35.9% 的人認為它是由人類編寫的。

然而，人造旅行內容卻讓讀者兩極化嚴重。大多數（41.6％）正確地猜測文字是由人類而不是人工智慧編寫的，但是相似數量（40.5％）的讀者認為相同的內容必須由人工智慧編寫。

金融

當涉及到金融內容時，人們能夠很好地識別人工智慧內容，正確率約為 45.8%，但是，37.2% 的人仍然認為相同的人工智慧文字必須由人類編寫。

當談到人類編寫的內容時，42.5% 的人相信它是由人工智慧編寫的，而 40.5% 的人正確猜測它是由人類大腦創建的。

AI產生的健康內容成功欺騙了53.1%的用戶

在健康內容方面，我們為使用者提供了有關髖關節置換費用、撲熱息痛的危險、心理健康狀況、健身計劃和預防性健康檢查的文章。

在這種情況下，研究中最高比例的讀者 (38.4%) 認為人工智慧內容是由人類編寫的，而 43.9% 的讀者相信它是人工智慧。剩下的 17.7% 認為這是人工編輯的人工智慧文字。

由人類創建並由醫療專業人員審核的健康內容並沒有贏得讀者。一般來說，該領域的人造內容大多數人（44.9％）認為它是由人工智慧生成的，而37.9％的人認為它是人類創造的。有趣的是，這意味著更多的人認為人工智慧健康內容比實際的人類編寫的內容更人性化。

在我們研究的五個領域中，人工智慧產生的健康內容最讓使用者感到困惑。當我們走向一個人工智慧可能會融入我們生活的更多領域（包括醫療保健）的世界時，這可能是非常危險的。

年輕人在識別人工智慧內容方面更加困難

在整個研究中，一般來說，最年輕的受訪者在識別人工智慧編寫的內容方面最差，18-24 歲的受訪者中只有五分之二 (40.2%) 能夠猜對。而 65 歲以上的人則更加憤世嫉俗，並且在超過一半的時間（52%）正確識別了人工智慧內容。

有多少人可以辨識AI內容

人們信任人工智慧編寫的內容嗎？

如果部落客、報紙和雜誌等內容出版商在不告訴用戶的情況下發佈人工智慧內容（有些人已經這樣做了，有時甚至充滿了錯誤），我們想知道日常讀者對此有何看法。

大多數受訪者（80.5%）表示，他們認為人工智慧揭露應該成為網路上的常態，出版商應該讓人們意識到這一點。

人們信任擁有人工智慧內容的品牌嗎

毫不奇怪，71.3% 的人也表示，如果某個品牌在沒有明確說明的情況下發布了人工智慧內容，他們就會降低對它的信任度。然而，剩下的 28.7% 表示這不會影響他們對品牌的信任，這表明也許並不是每個人都需要被告知他們的線上內容來自哪裡。

當談到這些揭露可能對讀者產生的影響時，情況是相似的。略少的大多數人(67.8%) 表示，如果線上內容中存在人工智慧揭露，他們會更信任某個品牌，而不到三分之一(32.2%) 的人表示這不會對他們的信任產生正面或負面的影響。

總體而言，數據表明，大多數人會青睞那些明確揭示人工智慧如何以及在何處創建內容的品牌。這是否會成為線上內容世界的常態還有待觀察。

方法

對 1,920 名各年齡層的美國成年人進行了調查，並要求判斷一段文字是由人工智慧、人類創建，還是由人工智慧並由人類編輯。我們對 75 段獨特的文本進行了詢問，並收集了 3,166 條回應用於此分析。調查資料收集時間為 2023 年 2 月 20 日至 2023 年 2 月 26 日。

調查受訪者被問及對人工智慧和人工智慧內容的熟悉程度。本次調查中的大多數人至少嘗試過某種形式的人工智慧工具，其中包括 ChatGPT，但可能不是 ChatGPT。

57.1% 的觀眾至少嘗試過一次某種形式的生成式人工智慧工具
41.1% 的人以某種形式聽說過它，但從未親自使用過
1.8% 在參與調查之前從未聽說過任何生成式人工智慧

分析中使用了 25 個問題，每個問題有 3 個答案：一個來自人工智慧 (ChatGPT)，一個由人類記者撰寫，另一個由人工智慧創建，然後由人類專業文案編輯編輯。問題和答案在使用者之間完全隨機，因此每個問題他們看不到多個答案。

內容是透過選擇娛樂、金融、科技、旅遊和健康領域的熱門搜尋問題（由 Google 搜尋量決定）來選擇的。

ChatGPT 被提示以相關主題的專家（例如旅遊記者或財務經理）的身份進行寫作，並「簡單地」解釋答案。如果內容明顯是由人工智慧編寫的，例如“好吧，我會假裝是一名財務經理，這就是我要說的”，那麼內容就會從人工智慧答案中刪除。人工編寫的內容來自專家網站，這些網站對相應問題進行了深入的內容。任何在其內容中揭露人工智慧使用的網站均未用於此分析。您可以在此處找到向調查受訪者提出的問題和答案的範例。

GPT-4.0更新學習

為了評估ChatGPT 中GPT-4.0 的功能，我們在2023 年3 月22 日至3 月25 日期間對1,394 名美國成年人進行了調查。他們被問到同樣的問題，即他們是否認為文本是由人工智能、人類生成的，還是由人工智慧編輯的。一個人。主題和查詢與 GPT-3.5 研究相同，上面的電子表格中給出了範例。

其他人工智慧資源

如今，您甚至可以使用人工智慧來幫助您建立網站！請查看我們的最佳人工智慧網站建立器指南以獲取更多資訊。

本作品根據 Creative Commons Attribution 4.0 International License 授權。