Survei: ChatGPT dan Konten AI –Dapatkah orang membedakannya?
Diterbitkan: 2023-03-08Bisakah orang membedakan antara manusia dan penulis AI dan apakah hal ini memengaruhi kepercayaan mereka terhadap merek?
Kecerdasan Buatan (AI) kini dapat dengan nyaman membuat gambar, musik, dan teks yang dapat dibuat oleh manusia berbakat. Dunia konten online mengalami perubahan besar pada tahun 2020-an. Hal ini sangat dipengaruhi oleh chatbot generatif, ChatGPT, yang berkembang pesat, mencapai satu juta pengguna pertamanya hanya dalam lima hari.
Meskipun mereka yang tertarik dengan teknologi mungkin tahu banyak tentang AI, dan chatbots seperti ChatGPT, hal ini bukanlah pengetahuan umum bagi semua orang. Faktanya, beberapa orang mungkin tidak mengetahui betapa canggihnya alat AI dan apakah apa yang mereka baca secara online dihasilkan oleh manusia atau AI.
Untuk mengetahui lebih lanjut mengenai topik ini, kami melakukan survei terhadap lebih dari 1.900 orang Amerika untuk mengetahui pendapat mereka tentang konten AI secara online, bagaimana hal tersebut memengaruhi kepercayaan mereka terhadap merek, dan pada akhirnya apakah mereka dapat membedakan antara AI dan konten manusia. Kami meminta orang-orang menebak apakah teks dibuat oleh AI atau manusia di konten kesehatan, keuangan, hiburan, teknologi, dan perjalanan. Pelajari lebih lanjut tentang metodologi penelitian ini di sini.
Inilah pendapat publik Amerika tentang konten AI online.
Temuan Utama
- Lebih dari 53% tidak dapat secara akurat mengidentifikasi konten yang murni dibuat oleh chatbot AI, seperti ChatGPT. Angka ini meningkat menjadi 63,5% saat menggunakan model GPT-4.0 .
- Rata-rata, model bahasa GPT-4.0 16,5% lebih baik dibandingkan GPT-3.5 dalam meyakinkan orang bahwa salinan yang dibuat oleh AI ditulis oleh manusia.
- Konten kesehatan yang dihasilkan oleh AI merupakan konten yang paling mampu menipu pengguna , dengan 56,1% salah mengira bahwa konten AI ditulis oleh manusia, atau diedit oleh manusia.
- Pembaca paling banyak menebak dengan tepat konten yang dihasilkan oleh AI di sektor teknologi , satu-satunya sektor di mana lebih dari setengah (51%) mengidentifikasi dengan benar konten yang dihasilkan oleh AI.
- Dengan GPT-4.0, konten teknologi juga diidentifikasi dengan tepat sebagai konten yang paling banyak dihasilkan oleh AI (60,3%) .
- Konten AI GPT-4.0 adalah yang paling tidak terdeteksi saat bepergian , dengan 66,5% pembaca mengira konten tersebut ditulis oleh manusia.
- Mereka yang lebih familiar dengan alat AI , seperti ChatGPT, sedikit lebih baik dalam mengidentifikasi konten AI , namun mereka hanya benar 48% saja.
- Hanya 40,8% orang yang sama sekali tidak terbiasa dengan AI generatif yang dapat mengidentifikasi konten AI dengan benar .
- Mayoritas orang (80,5%) percaya bahwa penerbit online yang memposting blog dan artikel berita harus secara eksplisit menyatakan apakah AI terlibat dalam pembuatannya.
- Lebih dari tujuh dari sepuluh (71,3%) mengatakan mereka akan kurang percaya pada suatu merek jika mereka diberi konten buatan AI tanpa diberi tahu .
- Sebagian besar orang (46,5%) mengatakan bahwa mereka akan baik-baik saja jika AI memberikan nasihat mengenai topik kesehatan dan keuangan, namun, 42,9% mengatakan mereka hanya akan menggunakan saran tersebut jika manusia telah mengedit dan meninjau konten tersebut.
Bisakah orang mengetahui apakah teks dibuat oleh AI?
Untuk menjawab pertanyaan utama penelitian ini dengan cepat: tidak, orang tidak dapat membedakan antara konten AI dan konten yang ditulis manusia .
Rata-rata, orang hanya mampu mengidentifikasi konten yang ditulis AI dengan benar sebanyak 46,9% . Saat menggunakan GPT-4.0 dan bukan GPT-3.5, hanya 36,5% pembaca yang mampu mengidentifikasi konten yang ditulis AI dengan benar.
Hal ini bervariasi berdasarkan topik konten yang mereka baca, namun secara umum, orang dapat mengidentifikasi AI hampir separuh waktu. Artinya, konten AI tidak dapat terdeteksi oleh lebih dari separuh pembaca.
Namun, jika ditelaah lebih jauh, kita dapat melihat bahwa 36,3% orang mengira konten AI sebenarnya ditulis oleh manusia, sementara 16,7% berpendapat bahwa konten tersebut adalah konten AI yang kemudian diedit oleh manusia.
Pada akhirnya, lebih dari separuh (53%) membaca konten tertulis AI dan berasumsi bahwa ada manusia yang terlibat pada suatu saat – begitulah meyakinkannya hal tersebut sebelum seorang penulis manusia menambahkan bakat dan kepribadiannya.
GPT-3.5 vs GPT-4.0: Model manakah yang menghasilkan salinan yang lebih meyakinkan?
Versi asli penelitian ini dilakukan sebelum GPT-4.0 diluncurkan pada tanggal 14 Maret 2023. Setelah itu, kami memperbarui temuan kami melalui jajak pendapat pembaca sekali lagi.
Kami menggunakan topik dan petunjuk yang sama, namun kali ini mensurvei responden menggunakan konten yang dihasilkan oleh ChatGPT dengan GPT-4.0, bukan model 3.5.
Kami menemukan bahwa terdapat peningkatan sebesar 16,5% dalam jumlah orang yang mengira konten yang dihasilkan AI dibuat oleh manusia, ketika kami menggunakan GPT-4.0.
Dengan menggunakan GPT-3.5, kami menemukan bahwa 53,1% orang menganggap copywriting ChatGPT adalah manusia, sedangkan dengan menggunakan GPT-4.0, kami menemukan 63,5% orang percaya bahwa konten dibuat atau diedit oleh manusia yang menulis.
Apakah ChatGPT lebih baik dalam menulis tentang topik tertentu?
Satu pertanyaan yang ingin dijawab oleh penelitian ini adalah apakah ChatGPT lebih baik dalam menulis lebih banyak konten manusiawi berdasarkan topik yang berbeda. Dari temuan kami, tampaknya chatbot AI lebih baik dalam menulis konten kesehatan yang lebih meyakinkan dan penulisan teknologinya lebih mudah dikenali oleh masyarakat umum.
Berikut ikhtisar tentang persepsi konten AI oleh masyarakat umum saat membuat teks tentang berbagai topik:
Siapa yang menulis konten yang dihasilkan ChatGPT? | |||
---|---|---|---|
AI | Manusia | AI, diedit oleh manusia | |
Teknologi | 51,05% | 32,97% | 15,98% |
Hiburan | 47,28% | 36,30% | 16,41% |
Bepergian | 46,72% | 36,80% | 16,50% |
Keuangan | 45,75% | 37,17% | 17,07% |
Kesehatan | 43,94% | 38,40% | 17,70% |
Karena studi ini telah diperbarui, kami juga dapat membandingkan hasil GPT-3.5 dan GPT-4.0 terkait konten pada berbagai topik. Sama seperti GPT-3.5, saat kami menggunakan GPT-4.0, model bahasa paling banyak terdeteksi pada konten teknologi (39,7%).
Konten perjalanan merupakan konten yang paling tidak terdeteksi pada GPT-4.0, karena 66,5% pembaca meyakini konten tersebut merupakan hasil editan manusia atau manusia. Sedangkan konten kesehatan adalah yang paling tidak terdeteksi pada GPT-3.5 (56.1%).
Seberapa dapat dipercaya salinan yang dihasilkan ChatGPT?
Tabel berikut menunjukkan persentase orang yang mengira salinan ChatGPT dibuat oleh AI, manusia, atau diedit oleh manusia di GPT-3.5 dan GPT-4.0.
GPT-3.5 | GPT-4.0 | GPT-3.5 | GPT-4.0 | |
---|---|---|---|---|
AI | AI | Manusia atau Diedit oleh Manusia | Manusia atau Diedit oleh Manusia | |
Teknologi | 51,1% | 39,7% | 49,0% | 60,3% |
Hiburan | 47,3% | 34,1% | 52,7% | 65,9% |
Bepergian | 46,7% | 33,5% | 53,3% | 66,5% |
Keuangan | 45,8% | 36,8% | 54,2% | 63,2% |
Kesehatan | 43,9% | 37,8% | 56,1% | 62,2% |
Di bawah ini kami telah mengelompokkan sektor-sektor tersebut lebih lanjut sehingga Anda dapat melihat seberapa baik ChatGPT menghasilkan konten yang terdengar manusiawi pada berbagai topik.
Semakin Anda memahami alat AI, semakin besar kemungkinan Anda dapat mendeteksi konten AI… namun hanya sedikit
Mereka yang mengatakan bahwa mereka familiar dengan alat AI, seperti ChatGPT, sedikit lebih baik dalam menemukan konten AI, namun mereka hanya benar 48%.
Kemampuan untuk mengidentifikasi tulisan AI turun sebesar 7,2% menjadi 40,8% ketika melihat orang-orang yang menyatakan bahwa mereka belum pernah mendengar tentang AI generatif, yang menunjukkan bahwa orang dapat memperoleh kemampuan untuk melihat tren dan pola dalam konten yang dihasilkan AI.
Secara keseluruhan, tidak ada perbedaan statistik antara pria dan wanita dalam deteksi konten AI.
Betapa meyakinkannya penulisan AI di berbagai industri
Studi kami mensurvei orang-orang mengenai apakah konten yang mereka baca dibuat oleh AI atau tidak di lima sektor utama. Berikut adalah rincian skor orang dalam setiap genre konten: hiburan, keuangan, perjalanan, teknologi, dan kesehatan.
Pembaca paling bisa melihat AI dalam konten teknologi
Pertanyaan teknologi kami memberikan jawaban kepada pengguna atas pertanyaan tentang ponsel, perangkat keras komputer, teknologi pintar, AI, dan penyedia internet.
Rata-rata, 51% pengguna mampu menebak dengan benar apakah jawaban yang ditulis oleh AI benar-benar dibuat oleh AI, sementara sepertiga (33%) berpendapat bahwa konten yang sama dibuat oleh manusia. 16% sisanya tidak yakin, menduga bahwa itu adalah bentuk konten AI yang kemudian diedit oleh manusia.
Secara keseluruhan, konten teknologi memiliki persentase pengguna tertinggi (51%) yang mengidentifikasi konten AI dengan benar. Perempuan sedikit lebih mungkin mengidentifikasi konten teknologi yang ditulis oleh AI dengan benar dibandingkan laki-laki (52,4% vs. 49,9%).
Terkait konten teknologi yang ditulis oleh manusia, hanya 36% orang yang dapat mengidentifikasi bahwa konten tersebut ditulis oleh manusia, dengan mayoritas (48,4%) yakin bahwa AI yang menulisnya, 15,6% sisanya salah mengira bahwa kemungkinan besar ada manusia yang mengeditnya. Konten yang ditulis AI.
Konten hiburan yang ditulis oleh AI kemungkinan besar menipu anak-anak berusia 18-24 tahun
Terkait penulisan hiburan, khususnya bagian teks yang membahas film, teater, video game, streaming, dan musik, 47,3% responden mampu mengidentifikasi konten AI dengan benar. Mereka yang berusia 18-24 tahun kemungkinan besar menganggap konten yang ditulis oleh AI ditulis oleh manusia (41,1%) dibandingkan dengan rata-rata keseluruhan sebesar 36,3%.
Terkait konten hiburan yang ditulis oleh manusia, tren serupa juga terjadi karena sebagian besar (44,8%) berpendapat bahwa konten tersebut pasti ditulis oleh AI, dan sedikit lebih sedikit (38,9%) yang menebak bahwa konten tersebut benar-benar ditulis oleh manusia.
Kebingungan ini mengikuti tren umum bahwa orang tidak bisa membedakan antara AI dan konten buatan manusia.
Bepergian
Terkait penulisan perjalanan online, kami menguji responden dengan konten tentang menemukan penerbangan dan hotel terjangkau, persiapan perjalanan luar ruangan, tips menyewa mobil, dan opini tentang penggunaan agen perjalanan.
Hampir sama persis dengan rata-rata, 47% orang mengidentifikasi teks AI dengan benar, namun 35,9% mengatakan teks tersebut ditulis oleh manusia.
Namun, konten perjalanan buatan manusia sangat mempolarisasi pembaca. Mayoritas (41,6%) menebak dengan benar bahwa teks tersebut ditulis oleh manusia dan bukan AI, namun jumlah pembaca yang sama (40,5%) berpendapat bahwa konten yang sama pasti dibuat oleh AI.
Keuangan
Orang-orang dapat mengenali konten AI dengan baik dalam hal konten keuangan, dengan tingkat akurasi sekitar 45,8%, namun, 37,2% masih berpikir bahwa teks AI yang sama harus dibuat oleh manusia.
Terkait konten yang ditulis manusia, 42,5% yakin bahwa konten tersebut ditulis oleh AI, sementara 40,5% menebak dengan benar bahwa konten tersebut dibuat oleh pikiran manusia.
Konten kesehatan yang dihasilkan AI berhasil menipu 53,1% pengguna
Terkait konten kesehatan, kami memberikan tulisan kepada pengguna tentang biaya penggantian pinggul, bahaya parasetamol, kondisi kesehatan mental, rencana kebugaran, dan pemeriksaan kesehatan preventif.
Dalam hal ini, sebagian besar pembaca dalam penelitian ini (38,4%) mengira konten AI ditulis oleh manusia, sementara 43,9% yakin bahwa konten tersebut adalah AI. 17,7% sisanya percaya bahwa itu adalah teks AI yang diedit oleh manusia.
Konten kesehatan yang dibuat oleh manusia dan ditinjau oleh profesional medis tidak menarik perhatian pembaca. Secara umum, sebagian besar orang (44,9%) mengira konten buatan manusia di wilayah ini mengira bahwa konten tersebut dihasilkan oleh AI, sementara 37,9% berpendapat bahwa konten tersebut dibuat oleh manusia. Menariknya, hal ini berarti lebih banyak orang yang menganggap konten kesehatan AI lebih bersifat manusiawi daripada konten yang sebenarnya ditulis oleh manusia.
Dari lima sektor yang kami ulas dalam penelitian ini, konten kesehatan yang dihasilkan oleh AI adalah yang paling membingungkan pengguna. Hal ini bisa sangat berbahaya ketika kita bergerak menuju dunia di mana AI kemungkinan besar akan terlibat dalam lebih banyak aspek kehidupan kita, termasuk layanan kesehatan.
Kaum muda lebih kesulitan dalam mengidentifikasi konten AI
Di seluruh studi, secara umum, responden termuda adalah yang paling buruk dalam mengidentifikasi konten yang ditulis oleh AI , dengan hanya 2 dari 5 (40,2%) responden berusia 18-24 tahun yang menebak dengan benar. Sementara mereka yang berusia 65+ tahun lebih sinis dan mengidentifikasi konten AI dengan benar lebih dari separuh waktu (52%).
Apakah orang-orang mempercayai konten yang ditulis AI?
Jika penerbit konten, seperti blogger, surat kabar, dan majalah menerbitkan konten AI tanpa memberi tahu pengguna (yang telah dilakukan beberapa orang, terkadang bahkan penuh kesalahan), kami ingin tahu apa yang dipikirkan pembaca sehari-hari tentang hal ini.
Mayoritas responden kami (80,5%) berpendapat bahwa pengungkapan AI harus menjadi norma di dunia maya dan penerbit harus menyadarkan masyarakat.
Maka tidak mengherankan jika 71,3% juga mengatakan bahwa mereka akan kurang mempercayai suatu merek jika merek tersebut menerbitkan konten AI tanpa menyatakannya secara eksplisit. Namun, 28,7% sisanya mengatakan hal ini tidak akan mempengaruhi kepercayaan mereka terhadap suatu merek, hal ini menunjukkan bahwa mungkin tidak semua orang perlu diberi tahu dari mana konten online mereka berasal.
Mengenai dampak pengungkapan ini terhadap pembaca, ceritanya serupa. Mayoritas yang lebih kecil (67,8%) mengatakan mereka akan lebih memercayai suatu merek jika pengungkapan AI ada di konten online, sementara hanya kurang dari sepertiga (32,2%) mengatakan hal itu tidak akan berdampak positif atau negatif terhadap kepercayaan mereka.
Secara keseluruhan, data menunjukkan bahwa sebagian besar orang akan menyukai merek yang secara eksplisit mengungkapkan bagaimana dan di mana AI digunakan untuk membuat konten mereka. Apakah hal ini menjadi norma dalam dunia konten online masih harus dilihat.
Metodologi
1.920 orang dewasa Amerika dari segala rentang usia disurvei dan diminta untuk memutuskan apakah sebuah teks dibuat oleh AI, manusia, atau AI dan diedit oleh manusia. Pertanyaan ini ditanyakan pada 75 teks unik, dan 3.166 tanggapan dikumpulkan untuk analisis ini. Data survei dikumpulkan dari 20/2/2023 hingga 26/2/2023.
Responden survei ditanya seberapa familiar mereka dengan AI dan konten AI. Mayoritas orang dalam survei ini telah mencoba beberapa bentuk alat AI setidaknya satu kali, termasuk ChatGPT, namun mungkin bukan ChatGPT.
- 57,1% audiens kami telah mencoba beberapa bentuk alat AI generatif setidaknya sekali
- 41,1% pernah mendengarnya dalam beberapa bentuk tetapi tidak pernah menggunakannya secara pribadi
- 1,8% belum pernah mendengar tentang AI generatif sebelum mengikuti survei
25 pertanyaan digunakan dalam analisis dengan tiga jawaban per pertanyaan: satu dari AI (ChatGPT), satu ditulis oleh jurnalis manusia, dan satu lagi dibuat oleh AI kemudian diedit oleh copywriter profesional manusia. Pertanyaan dan jawaban diacak seluruh pengguna sehingga mereka tidak dapat melihat lebih dari satu jawaban per pertanyaan.
Konten tersebut dipilih dengan memilih pertanyaan yang paling banyak dicari (ditentukan oleh volume pencarian Google) di sektor hiburan, keuangan, teknologi, perjalanan, dan kesehatan.
ChatGPT diberikan petunjuk untuk menulis sebagai pakar pada topik yang relevan (misalnya jurnalis perjalanan, atau manajer keuangan) dan menjelaskan jawaban “sederhana”. Konten dihapus dari jawaban AI jika jelas bahwa jawaban tersebut ditulis oleh AI, seperti “Baiklah, saya akan berpura-pura menjadi manajer keuangan dan inilah yang akan saya katakan”. Konten yang ditulis manusia bersumber dari situs ahli yang telah membuat konten mendalam tentang masing-masing pertanyaan. Situs mana pun yang mengungkapkan penggunaan AI dalam kontennya tidak digunakan untuk analisis ini. Contoh pertanyaan dan tanggapan yang diberikan kepada responden survei dapat dilihat di sini.
Pembaruan GPT-4.0 untuk Dipelajari
Untuk menilai kemampuan GPT-4.0 di ChatGPT, kami mensurvei 1.394 orang dewasa Amerika antara tanggal 22 Maret dan 25 Maret 2023. Mereka ditanyai pertanyaan yang sama, apakah menurut mereka sebuah teks dibuat oleh AI, manusia, atau diedit oleh seorang manusia. Topik dan pertanyaannya sama dengan studi GPT-3.5, contoh diberikan pada spreadsheet di atas.
Sumber Daya AI Lainnya
Anda bahkan dapat menggunakan AI untuk membantu Anda membuat situs web saat ini! Lihat panduan kami tentang pembuat situs web AI terbaik untuk informasi lebih lanjut.
Karya ini dilisensikan di bawah Lisensi Internasional Creative Commons Attribution 4.0.