Tes ChatGPT vs Claude 3: Bisakah Anthropic Mengalahkan Superstar OpenAI?
Diterbitkan: 2024-03-10Sejak ChatGPT diperkenalkan ke dunia lebih dari 18 bulan yang lalu, sejumlah chatbot lainnya juga telah diluncurkan. Ada yang terbukti bermanfaat, namun ada pula yang tidak begitu berguna. Namun bersama Gemini (sebelumnya Bard) , chatbot yang terbukti lebih kompetitif adalah Claude, yang diciptakan oleh startup AI Anthropic.
Kami telah menyiapkan ChatGPT vs Claude 3 secara langsung untuk menandai peluncuran Claude 3, rangkaian model bahasa yang mencakup Claude 3 Haiku, Claude 3 Sonnet, dan Claude 3 Opus. Menurut Anthropic yang didukung Google, kinerja Claude 3 lebih baik daripada model bahasa keluarga GPT yang mendukung ChatGPT pada serangkaian tes kognitif benchmark. Dalam pengujian kami, kami menemukan bahwa Claude lebih pandai bicara dibandingkan ChatGPT, dan jawabannya biasanya ditulis lebih baik dan lebih mudah dibaca.
Tapi bagaimana mereka membandingkannya secara berdampingan? Untuk mengetahuinya, kami mengajukan berbagai pertanyaan berbeda kepada ChatGPT dan Claude 3, mulai dari pertanyaan yang dirancang untuk menguji pendekatan chatbot hingga pertanyaan etis hingga menghasilkan rumus spreadsheet.
Dalam panduan ini:
- Claude 3 vs ChatGPT: Apa Bedanya?
- Claude 3 vs ChatGPT: Tes Head-to-Head
- Claude 3 vs ChatGPT: UI & Pengalaman pengguna
- Claude 3 vs ChatGPT: Data dan Privasi
- Menggunakan Claude 3 dan ChatGPT di Tempat Kerja
Claude 3 vs ChatGPT: Apa Bedanya?
Claude 3 adalah keluarga model bahasa baru dari Anthropic, yang digunakan untuk menggerakkan chatbot Claude mereka. Ada (kebetulan) 3 model: Haiku, Soneta, dan Opus. Saat ini, Claude Sonnet mendukung Claude versi gratis, dan 2x lebih cepat dalam memproses informasi dibandingkan Claude 2.1, kata Anthropic.
Claude Opus, di sisi lain, mendukung versi pro. Hasil benchmark Anthropic yang digambarkan di bawah menunjukkan Claude Opus mengungguli GPT-4, serta Claude Sonnet berperforma lebih baik daripada GPT-3.5.
Bagaimana Claude 3 dibandingkan dengan ChatGPT dan Gemini pada tes benchmark. Gambar: Antropis
Sejak diluncurkan, ChatGPT telah didukung oleh berbagai anggota model bahasa keluarga GPT. Pengguna gratis saat ini memiliki akses ke GPT-3.5, sedangkan GPT-4 mendukung ChatGPT Plus, dengan biaya $20 per bulan untuk satu langganan. Ini harganya sama dengan Claude Pro. Berikut beberapa perbedaan utama antara perangkat lunak tersebut:
bot obrolan | Perusahaan | Versi gratis? | Paket Berbayar Dari | Model bahasa | Masuk | Bahasa | |
---|---|---|---|---|---|---|---|
ObrolanGPT | Claude | ||||||
OpenAI | Antropis | ||||||
$20/bulan | $20/bulan | ||||||
| Gratis: Claude Soneta | ||||||
Membutuhkan alamat email apa pun. Tidak ada daftar tunggu saat ini. | Membutuhkan alamat email untuk membuat akun Anthropic. | ||||||
95+ bahasa | Inggris, Jepang, Spanyol, dan Prancis |
ChatGPT vs Claude 3: Tes Head-to-Head
Kami telah mempertemukan ChatGPT dan Claude, menanyakan 13 pertanyaan berbeda yang dirancang untuk menguji aspek-aspek seperti penalaran dan pemrosesan bahasa alami, tetapi juga seberapa baik mereka dalam menyelesaikan tugas-tugas praktis di tempat kerja seperti memindai dokumen untuk mendapatkan informasi dan menulis email. .
Saya menemukan bahwa Claude menghasilkan respons yang lebih baik pada tujuh pengujian, sementara ChatGPT unggul dalam tiga pengujian . Empat sisanya (termasuk salah satu tes brainstorming) berakhir seri, yang berarti Claude memenangkan pertandingan ini . Berikut daftar lengkap pertanyaan yang kami ajukan kepada kedua chatbots:
- Penalaran Etis
- Membuat Deskripsi Produk
- Brainstorming Ide (2 tes)
- Pemahaman Bahasa Alami
- Meringkas Teks
- Nasihat Pribadi
- Menganalisis Teks
- Memberikan Informasi Faktual
- Penulisan Kreatif
- Menulis puisi
- Teka-teki & Penalaran
- Menulis Email
- Membuat Rumus Spreadsheet
1. Penalaran Etis
Pertama, saya mengajukan dilema etika yang sulit kepada ChatGPT dan Claude. Saya memilih dilema ini khususnya karena jawaban yang benar (jika ada) belum tentu jelas atau lugas:
Seorang pria mengendarai mobil lapis baja ke pusat kota, berniat menimbulkan kerusakan paling besar dan menyebabkan kerugian sebesar mungkin. Dia menyandera tiga penumpang di belakang mobil. Mobil ini memiliki lapis baja yang sangat baik sehingga orang yang berada di dalamnya akan selamat dari benturan apa pun. Namun, Anda mempunyai kesempatan untuk meledakkan mobil dari jarak jauh menggunakan peluncur roket. Haruskah Anda meledakkan mobil, membunuh semua orang di dalamnya, tetapi menyelamatkan korban amukan pria itu?
Jawaban Claude sangat sensitif terhadap kesulitan situasi, dan secara keseluruhan memberikan respons yang sangat manusiawi. Tampaknya memahami gawatnya situasi – dan chatbot hampir terdengar emosional ketika berbicara tentang situasi tersebut. Hal ini membuatnya terasa sangat menarik.
ChatGPT, di sisi lain, dengan jelas menguraikan sudut pandang dan pendekatan berbeda yang dapat Anda ambil terhadap situasi tersebut. Ini menguraikan banyak pertimbangan yang sama seperti yang dilakukan Claude dan mengacu pada kesulitan-kesulitan dalam situasi tersebut.
Jawaban Claude jauh lebih jelas, dan saya cenderung lebih memilih chatbots untuk memberikan respons gaya “ikhtisar” ini terhadap dilema etika yang sulit karena jawaban-jawaban ini lebih bermanfaat (dan tidak terlalu berbahaya) untuk digunakan oleh aktor manusia daripada penilaian absolut.
Jawaban Terbaik? Claude
2. Membuat Deskripsi Produk
jika Anda menjalankan toko online atau sekadar menjual banyak produk secara online, membuat deskripsi produk yang unik dan menarik untuk setiap produk bukanlah tugas yang mudah. Jadi, saya meminta ChatGPT dan Claude untuk menulis deskripsi produk untuk produk yang sama – jam digital. Begini cara Claude melakukannya:
Saya akhirnya meminta Claude untuk memberikan deskripsi yang sedikit lebih panjang, karena saya belum melihatnya menulis deskripsi produk sebanyak ChatGPT. Dan pada akhirnya, hasilnya sangat bagus – konstruksi kalimatnya mengesankan dan salinannya benar-benar menarik.
Secara keseluruhan, deskripsi produk yang dihasilkan oleh Claude lebih baik dibandingkan ChatGPT. Sama seperti alasan etisnya, hal ini terdengar jauh lebih manusiawi. Jika Anda membuat deskripsi produk secara massal dengan kedua alat ini, Anda harus melakukan lebih sedikit pengeditan untuk deskripsi yang dihasilkan dengan Claude.
Jawaban Terbaik? Claude
3. Brainstorming Ide
Selanjutnya, saya menetapkan dua tugas brainstorming bagi Claude dan ChatGPT – menghasilkan ide posting blog untuk dua blog yang sangat berbeda. Yang pertama adalah untuk blog santapan fiksi, karena saya ingin melihat seberapa berguna kedua chatbot tersebut dalam menghasilkan ide-ide yang menarik.
Saya kemudian juga meminta beberapa ide untuk sebuah blog tentang kesehatan mental untuk melihat apakah mereka akan mendapatkan “nada” yang tepat, karena diperlukan bahasa yang lebih serius dan bijaksana untuk konten semacam ini.
Postingan blog santapan lezat
Sekali lagi, Claude menang dalam tugas ini. Ini memberikan judul yang lebih lengkap, dan penjelasannya menunjukkan bahwa mereka memiliki pemahaman yang jelas tentang mengapa audiens mungkin ingin membaca postingan blog yang disarankan. Ini akan berguna bagi seseorang yang akan memproduksi konten ini, karena sebenarnya berguna untuk memahami alasan tersebut dan menerapkannya saat menulis.
ChatGPT tidak benar-benar menunjukkan cara kerjanya sama, dan jika mempertimbangkan semua hal, idenya lebih umum. Mereka jauh lebih kabur daripada Claude, dan sepertinya mereka disarankan oleh manusia yang memahami strategi konten dan produksi, bukan chatbot AI.
Jawaban Terbaik? Claude
Postingan blog kesehatan mental
Selanjutnya, saya ingin melihat apakah kedua chatbot dapat menyesuaikan nada dan pendekatan yang mereka ambil terhadap saran ketika diminta untuk membuat postingan blog tentang topik yang lebih sensitif yang memerlukan lebih banyak ketulusan daripada panduan santapan. Inilah upaya Claude:
Ini semua adalah saran yang bagus dan nadanya benar – tidak ada yang luar biasa di sini. Namun, seperti yang Anda lihat dari gambar di bawah, ChatGPT juga memberi kami beberapa ide yang sesuai dan memberikan instruksi tambahan serupa dalam hal konten. Tidak ada yang bisa memisahkan mereka di sini!
Jawaban Terbaik? Mengikat
4. Memahami Bahasa Alami
Selanjutnya, saya ingin melihat apakah pertanyaan matematika terkenal yang memanfaatkan intuisi kita tentang matematika akan membuat ChatGPT atau Claude tersandung.
Matt punya apel dan pisang yang harganya $3,10 bersama-sama. Apel harganya $3,00 lebih mahal daripada pisang. Berapa harga pisangnya?
Meskipun awalnya Anda mungkin mengira jawabannya adalah 10 sen, sebenarnya sebenarnya hanya lima sen. Claude terlalu pintar untuk dibodohi dan menjelaskan dengan tepat bagaimana ia mendapatkan jawaban yang benar:
Tak mau malu, ChatGPT pun melontarkan jawaban yang benar, artinya sebenarnya tidak ada yang membedakan kedua kelas berat di babak ini.
Jawaban Terbaik? Mengikat
5. Meringkas Teks
Baik ChatGPT maupun Claude sangat mampu meringkas teks dalam jumlah besar, mengeluarkan poin-poin penting sehingga penggunanya tidak perlu membaca keseluruhannya. Untuk tes ini, saya meminta mereka untuk merangkum artikel Guardian baru-baru ini tentang pidato kenegaraan terakhir Presiden Joe Biden.
Claude melakukan pekerjaan yang sangat baik dalam membuat ringkasannya singkat dan padat:
ChatGPT juga lebih dari memuaskan – tetapi jika kita ingin membaginya, saya harus mengatakan bahwa saya lebih suka Claude. Ini tidak berusaha membebani Anda dengan terlalu banyak informasi – yang penting, mengingat kami meminta ringkasan – dan sekali lagi, ini hanya ditulis dengan lebih baik.
Jawaban Terbaik? Claude
6. Nasihat Pribadi
Untuk tes ini, saya ingin melihat bagaimana reaksi ChatGPT dan Claude jika diminta memberikan nasihat pribadi kepada seseorang yang terkena dampak kesehatan mental yang buruk. Sangat penting bahwa alat seperti ini dapat merespons permintaan ini dengan cara yang produktif dan tepat, terutama ketika permintaan tersebut semakin terintegrasi ke dalam kehidupan kita. Inilah jawaban Claude:
Ini mungkin jawaban paling mirip yang diberikan oleh kedua chatbot ini dari 13 pengujian yang kami jalankan. Sejujurnya, sulit untuk menyalahkan tanggapan ini, yang dimulai dengan memvalidasi perasaan pengguna sebelum melanjutkan ke tindakan yang dapat mereka ambil.
Kedua chatbot tersebut menyarankan untuk mengambil langkah yang sangat mirip, dan langkah yang sama yang akan disarankan oleh orang yang bermaksud baik kepada teman yang mengalami masalah yang ditentukan dalam perintah.
Jawaban Terbaik? Mengikat
7. Menganalisis Teks
Ini adalah tes yang sangat mendasar untuk melihat seberapa baik chatbot dalam memindai teks. Untuk tes ini, saya mengambil kutipan dari artikel Harvard Business Review dan memasukkan kata “bola pantai” ke dalamnya sebanyak lima kali. Saya juga menambahkan beberapa varian mirip (bola pantai” dan “bola untuk pantai”) untuk melihat apakah chatbot akan bingung.
Bukan untuk pertama kalinya, Claude menggedor-gedor uang, memindai teks dan menghitung dengan tepat berapa kali saya menggunakan kata bola pantai. Berbeda dengan ChatGPT, jika Anda menempelkan terlalu banyak teks ke Claude, teks tersebut akan dikirimkan sebagai semacam “dokumen”, seperti terlihat pada gambar di bawah ini:
Yang mengecewakan, ChatGPT salah memberikan jawaban – ia hanya mampu mengidentifikasi dua contoh kata, kurang dari setengah jumlah total. ChatGPT tampaknya kesulitan dengan genre tugas ini secara khusus. Saya baru-baru ini berhadapan langsung dengan Gemini dan menyertakan tugas serupa, dan gagal mengidentifikasi berapa kali kata tertentu muncul di blok teks pada waktu itu juga.
Jawaban Terbaik? Claude
8. Memberikan Informasi Faktual
Untuk tugas ini, saya ingin melihat seberapa baik ChatGPT dan Claude dalam memberikan jawaban atas pertanyaan yang belum tentu jelas namun masih berdasarkan fakta. Jadi, saya meminta keduanya untuk menjelaskan bagaimana dan mengapa dinosaurus punah – sesuatu yang memiliki beberapa penjelasan dan faktor sejarah dan ilmiah.
Pertama, Claude memberikan gambaran yang sangat bagus tentang teori dan kebenaran yang diterima secara umum tentang kepunahan dinosaurus
Claude sekali lagi memberikan penjelasan yang sangat jelas, yang mencakup hampir semua informasi yang sama seperti ChatGPT – ia hanya menjelaskan dan membicarakannya dengan cara yang lebih baik. Hal ini juga merujuk pada fakta bahwa dinosaurus tidak punah sekaligus, sebuah poin penting yang tidak disertakan oleh ChatGPT.
Jawaban Terbaik? Claude
9. Penulisan Kreatif
Siapa yang menulis cerita terbaik, ChatGPT atau Claude? Kami meminta mereka berdua untuk membuat cerita pendek sepanjang 300 kata. Claude bangun duluan:
Anehnya, Claude justru memberiku cerita pendek sepanjang 301 kata, satu kata melebihi jumlah kata yang ditentukan. ChatGPT, di sisi lain, lebih mendekati ringkasan – dan menulis cerita yang sedikit lebih baik, menurut saya.
Saya harus memberikan yang ini ke ChatGPT, hanya karena Claude tidak hanya mengabaikan instruksi saya, tetapi juga menggosokkannya ke wajah saya sebelum memulai cerita! Selain bercanda, aneh juga bahwa ia memilih untuk membahas jumlah kata yang ditentukan dengan sangat jelas dengan selisih yang begitu kecil, dan hal itu juga dilakukan dengan sengaja.
Jawaban Terbaik? ObrolanGPT
10. Menulis Puisi
ChatGPT dan Claude menggunakan struktur serupa untuk puisi yang kami minta agar mereka hasilkan, dan itu membuat sangat sulit untuk memisahkannya sekali lagi. Claude memilih syair empat baris dengan bait berima:
Dan ChatGPT secara efektif melakukan hal yang sama. Mereka berdua juga sangat dekat dengan informasi yang saya berikan di prompt, jadi cerita yang diceritakan dalam puisi juga sangat mirip. Kecepatan kedua chatbot ini menghasilkan puisi yang meyakinkan adalah sesuatu yang luar biasa.
Terlepas dari kesamaannya, setelah membaca keduanya beberapa kali, saya akan memberikan yang ini kepada Claude – strukturnya sedikit lebih rumit di beberapa area, dan ada perkembangan dan pergantian frasa yang lebih bagus.
Jawaban Terbaik? Claude
11. Teka-teki dan Penalaran
Untuk tugas ini, kami meminta kedua chatbot tersebut memecahkan sebuah teka-teki. Claude yang pertama bangun dan langsung menjawab, menjelaskan dengan jelas mengapa pelayan itu pelakunya.
ChatGPT juga menjawab teka-teki dengan benar, jadi tidak ada yang memisahkan keduanya dalam hal ini.
Jawaban Terbaik? Mengikat
12. Menulis Email
Di sini, saya meminta ChatGPT dan Claude untuk menulis email kepada atasan saya yang menjelaskan mengapa saya harus diizinkan untuk beralih ke pekerjaan jarak jauh sepenuhnya. Claude menulis email yang sangat berguna, seperti yang Anda lihat di bawah:
Namun, ChatGPT terdengar lebih profesional dan Anda harus melakukan lebih sedikit pengeditan sebelum mengirimkannya ke atasan Anda. Claude menyelami stres yang konon disebabkan oleh perjalanan pulang pergi, dan meskipun hal itu patut disebutkan, pengenalan ChatGPT jauh lebih diplomatis.
Mengingat seberapa dekatnya jawaban ChatGPT dengan artikel yang sudah selesai, saya harus menobatkannya sebagai pemenang artikel ini.
Jawaban Terbaik? ObrolanGPT
13. Membuat Rumus Spreadsheet
Untuk tes akhir ini, saya meminta ChatGPT dan Claude untuk membuatkan rumus spreadsheet untuk saya. Ini adalah permintaan yang saya kirimkan:
Kolom B berisi sekumpulan nilai. Saya ingin mencocokkannya dengan nilai yang sesuai dari kolom E di lembar 'Filter Bawah' dan mengambil nilai yang cocok dari kolom F, G, dan H dalam filter ke lembar saat ini menggunakan rumus.
Begini cara Claude melakukannya:
“Claude telah mencoba membuat satu formula sederhana dan serbaguna yang menggunakan tempatnya di dalam lembaran untuk mengetahui apa yang harus dilakukan, dan itu bagus, tapi mungkin formula tersebut tidak akan bekerja dengan cepat dan mungkin akan rusak, sejujurnya,” Kata Matthew Bentley, ahli Spreadsheet di Tech.co.
“Tidak perlu memperumit permintaan sederhana”, lanjutnya. “ChatGPT untuk yang ini menurut saya lebih baik. Ini adalah permintaan Vlookup yang cukup sederhana dan tidak memerlukan semua formula tambahan yang disediakan oleh Claude”.
Jawaban Terbaik? ObrolanGPT
Claude 3 vs ChatGPT: UI dan Pengalaman Pengguna
Tentu saja, ChatGPT dan Claude keduanya cukup mudah digunakan, dan antarmuka keduanya terlihat sangat mirip dalam hal format dan struktur. Hal yang sama dapat dikatakan tentang Gemini, Perplexity AI, dan Copilot . Sebagian besar chatbot ini memberikan pengalaman pengguna yang lancar dan mudah.
Namun, saya menyukai nada menenangkan yang dipilih Anthropic untuk Claude, karena cocok dengan sikap chatbot, yang mungkin sedikit lebih terukur dibandingkan beberapa pesaingnya. ChatGPT, di sisi lain, terkadang terasa sedikit klinis dengan skema warna keabu-abuan. Secara keseluruhan, desain Anthropic sedikit lebih bagus daripada ChatGPT.
Seperti Gemini, Claude umumnya melakukan pekerjaan yang lebih baik dalam memformat jawabannya, sesuatu yang tidak bisa dilakukan ChatGPT dengan baik (cari tahu lebih lanjut di Gemini vs ChatGPT head-to-head). Meskipun saya lebih sering melihat ChatGPT menggunakan header untuk memecah teks, saya menyukai cara Claude memformat jawabannya. Hal hebat lainnya yang disediakan Claude adalah gaya font berbeda yang lebih mudah dibaca oleh penderita disleksia.
Namun, ChatGPT sepenuhnya gratis untuk digunakan tanpa batasan berapa banyak pertanyaan yang dapat Anda ajukan – sebaliknya, versi gratis Claude akan mengunci Anda jika Anda mengajukan terlalu banyak pertanyaan, dan memaksa Anda menunggu selama 3-4 jam sebelum kamu diperbolehkan bertanya lagi. Hal ini membuatnya kurang cocok untuk orang yang menginginkan chatbot berfungsi, namun tidak ingin membayar apa pun.
Claude 3 vs ChatGPT: Data dan Privasi
Claude 3 dan ChatGPT memperlakukan penggunanya secara berbeda. Jika Anda mengkhawatirkan privasi Anda, penting untuk mengetahui apa yang mereka simpan, simpan, dan lihat, dan apa yang tidak. ChatGPT berhak menggunakan data Anda untuk melatih modelnya, dan Claude melakukan hal yang sama. Baik OpenAI dan Anthropic mengatakan bahwa mereka mengenkripsi koneksi antara server dan pengguna mereka secara end-to-end untuk keamanan maksimum.
Namun, pengguna bisnis dan perusahaan Claude akan otomatis menghapus perintah dan keluarannya dalam waktu 28 hari sejak diterima atau dibuat, kecuali jika mereka diwajibkan secara hukum untuk menyimpannya dalam jangka waktu yang lebih lama atau Anda menyetujui sebaliknya. Perintah pengguna konsumen akan dihapus setelah 90 hari, namun jika salah satu perintah Anda ditandai sebagai berpotensi berbahaya, berbahaya, atau tidak aman, perintah tersebut dapat dipertahankan hingga dua tahun.
Apa yang dilakukan ChatGPT dengan data Anda sedikit berbeda. Pada dasarnya, jika Anda ingin menyimpan obrolan Anda dan membiarkan ChatGPT menyimpannya di sistem, Anda juga setuju bahwa obrolan tersebut dapat digunakan untuk melatih model, dan dalam hal ini, dapat diakses oleh manusia lain. Jika Anda menonaktifkan riwayat obrolan, Anda tidak akan dapat menyimpan obrolan apa pun, namun ChatGPT tidak akan menggunakannya untuk melatih modelnya. Data bisnis apa pun yang disimpan di API ChatGPT tidak digunakan untuk melatih LLM GPT.
Menggunakan Chatbots di Tempat Kerja
Tentu saja, ada banyak cara bagi bisnis untuk menggunakan ChatGPT dan Claude untuk bekerja – bahkan, kami telah menyebutkan beberapa di antaranya di artikel ini. Namun jika Anda menggunakan chatbot secara teratur di tempat kerja, ada beberapa pertimbangan yang perlu ditinjau.
Misalnya, apakah perusahaan Anda memiliki seperangkat pedoman untuk menggunakan alat AI ? Jika Anda tidak yakin, Anda harus mengklarifikasi hal ini dengan manajer Anda atau kepala departemen Anda. Anda mungkin belum mengetahuinya, namun perusahaan Anda mungkin memiliki aturan ketat mengenai jenis data yang dapat Anda masukkan ke alat pihak ketiga, dan mungkin bahkan alat AI secara lebih spesifik.
Kedua, Anda harus terbuka dan transparan mengenai penggunaan AI, khususnya dengan manajer lini Anda. Perdebatan tentang tugas mana yang pantas untuk diselesaikan menggunakan chatbot AI masih berlangsung, dan orang lain di perusahaan Anda mungkin memiliki gagasan berbeda tentang apa yang dapat Anda terima. Selain itu, sebagian besar manajer dan pemimpin bisnis berpendapat Anda harus meminta izin sebelum menggunakan alat AI.
Apa pun tugas yang Anda gunakan untuk alat AI, ingatlah untuk memeriksa pekerjaan mereka seolah-olah telah diselesaikan oleh karyawan baru. Meskipun seringkali sangat cepat dan sangat akurat, alat AI tentu saja dapat berhalusinasi dan memberikan informasi yang salah. Jadi, jangan terlalu terbawa suasana!