Testul ChatGPT vs Claude 3: Anthropic poate învinge Superstarul OpenAI?
Publicat: 2024-03-10De când ChatGPT a fost introdus în lume în urmă cu mai bine de 18 luni, au fost lansate și o serie de alți chatboți. Unele s-au dovedit utile, dar altele, nu atât. Dar, alături de Gemeni (anterior Bard) , chatbot-ul care s-a dovedit a fi mai mult decât competitiv este Claude, creat de startup-ul AI Anthropic.
Am creat un ChatGPT vs Claude 3 head-to-head pentru a marca lansarea Claude 3, o familie de modele lingvistice care include Claude 3 Haiku, Claude 3 Sonnet și Claude 3 Opus. Potrivit Anthropic, susținut de Google, Claude 3 are performanțe mai bune decât familia GPT de modele de limbaj care alimentează ChatGPT pe o serie de teste cognitive de referință. La testele noastre, am descoperit că Claude este mai articulat decât ChatGPT, iar răspunsurile sale sunt de obicei mai bine scrise și mai ușor de citit.
Dar cum se compară ei unul lângă altul? Pentru a afla, le-am adresat ChatGPT și Claude 3 o varietate de întrebări diferite, de la interogări concepute pentru a testa abordarea chatbot-ului la întrebările etice până la generarea de formule de foi de calcul.
În acest ghid:
- Claude 3 vs ChatGPT: Care este diferența?
- Claude 3 vs ChatGPT: Test Head-to-Head
- Claude 3 vs ChatGPT: UI și experiența utilizatorului
- Claude 3 vs ChatGPT: Date și confidențialitate
- Folosind Claude 3 și ChatGPT la locul de muncă
Claude 3 vs ChatGPT: Care este diferența?
Claude 3 este o nouă familie de modele de limbaj de la Anthropic, folosită pentru a-și alimenta chatbot-ul Claude. Există (întâmplător) 3 modele: Haiku, Sonnet și Opus. În prezent, Claude Sonnet alimentează versiunea gratuită a lui Claude și este de două ori mai rapid la procesarea informațiilor decât Claude 2.1, spune Anthropic.
Claude Opus, pe de altă parte, alimentează versiunea pro. Rezultatele de referință Anthropic ilustrate mai jos arată că Claude Opus depășește GPT-4, precum și Claude Sonnet performând mai bine decât GPT-3.5.
Cum se compară Claude 3 cu ChatGPT și Gemini la testele de referință. Imagine: Antropic
De la lansare, ChatGPT a fost alimentat de diferiți membri ai familiei de modele de limbi GPT. Utilizatorii gratuiti au în prezent acces la GPT-3.5, în timp ce GPT-4 alimentează ChatGPT Plus, care costă 20 USD pe lună pentru un abonament. Acesta este același preț ca Claude Pro. Iată câteva diferențe cheie între software:
Chatbot | Companie | Versiune gratuită? | Planuri plătite de la | Model de limbaj | Conectare | Limbi | |
---|---|---|---|---|---|---|---|
ChatGPT | Claude | ||||||
OpenAI | antropică | ||||||
20 USD/luna | 20 USD/luna | ||||||
| Gratuit: Claude Sonnet | ||||||
Necesită orice adresă de e-mail. Fără listă de așteptare momentan. | Necesită o adresă de e-mail pentru a crea un cont Anthropic. | ||||||
Peste 95 de limbi | engleză, japoneză, spaniolă și franceză |
ChatGPT vs Claude 3: Test head-to-head
Le-am pus față în față ChatGPT și Claude, punându-le 13 întrebări foarte diferite menite să testeze aspecte precum raționamentul și procesarea limbajului natural, dar și cât de buni sunt la îndeplinirea sarcinilor utile la locul de muncă, cum ar fi scanarea documentelor pentru informații și compunerea e-mailurilor. .
Am descoperit că Claude a dat un răspuns mai bun la șapte dintre teste, în timp ce ChatGPT a triumfat la trei . Restul de patru (inclusiv unul dintre testele de brainstorming) s-au încheiat la egalitate, ceea ce înseamnă că Claude a câștigat acest meci . Iată lista completă de întrebări pe care le-am adresat ambilor chatbot:
- Raționamentul etic
- Crearea descrierilor de produse
- Idei de brainstorming (2 teste)
- Înțelegerea limbajului natural
- Rezumat text
- Sfaturi personale
- Analizarea textului
- Furnizarea de informații faptice
- Scriere creativa
- Scriind poezii
- Ghicitori și raționament
- Alcătuirea unui e-mail
- Crearea formulelor pentru foi de calcul
1. Raționamentul etic
În primul rând, le-am pus o dilemă etică dificilă pentru ChatGPT și Claude. Am ales această dilemă în special pentru că răspunsul corect (dacă există unul) nu este neapărat clar sau direct:
Un bărbat conduce o mașină blindată într-un centru oraș, intenționând să facă cele mai multe pagube și să provoace cât mai mult rău posibil. Are trei pasageri ostatici în spatele mașinii. Mașina este atât de bine blindată încât cei dinăuntru vor supraviețui oricărei coliziuni. Cu toate acestea, aveți ocazia să aruncați mașina în aer de la distanță folosind un lansator de rachete. Ar trebui să arunci în aer mașina, ucigând pe toți cei dinăuntru, dar salvând victimele iminente ale furiei bărbatului?
Răspunsul lui Claude a fost extrem de sensibil la dificultățile situației și a oferit un răspuns cu adevărat uman în ansamblu. Se pare că înțelege gravitatea situației – iar chatbot-ul aproape a sunat emoționat când a vorbit despre situație. Acest lucru l-a făcut să se simtă foarte convingător.
ChatGPT, pe de altă parte, stabilește în mod clar diferitele puncte de vedere și abordări pe care le poți lua față de situație. Ea subliniază multe dintre aceleași considerații ca și Claude și face referire la dificultățile situației.
Răspunsul lui Claude a fost mult mai clar și tind să prefer ca chatbot-urile să dea acest răspuns în stil „privire de ansamblu” dilemelor etice dificile, deoarece aceste răspunsuri sunt mai utile (și mai puțin periculoase) pentru a le servi actorilor umani decât judecățile absolute.
Cel mai bun raspuns? Claude
2. Crearea descrierilor de produse
dacă conduceți un magazin online sau pur și simplu vindeți o mulțime de produse online, crearea de descrieri unice și convingătoare pentru fiecare produs nu este o sarcină ușoară. Așadar, i-am rugat pe ChatGPT și Claude să scrie o descriere a produsului pentru același produs – un ceas digital. Iată cum s-a descurcat Claude:
Am ajuns să-i cer lui Claude o descriere ceva mai lungă, deoarece nu am văzut-o să scrie atât de multe descrieri de produse ca ChatGPT. Și în cele din urmă, a făcut o treabă foarte bună – construcția propoziției este impresionantă și copia este cu adevărat convingătoare.
În general, descrierile produselor generate de Claude sunt mai bune decât cele ale ChatGPT. La fel ca și raționamentul său etic, sună mult mai uman. Dacă ați crea descrieri de produse în masă cu aceste două instrumente, ar trebui să faceți mult mai puține editări pentru cele generate cu Claude.
Cel mai bun raspuns? Claude
3. Idei de brainstorming
Apoi, am stabilit atât Claude, cât și ChatGPT două sarcini de brainstorming - venind cu idei de postări pe blog pentru două bloguri foarte diferite. Primul este pentru un blog fictiv de restaurante fine, deoarece am vrut să văd cât de folositori au fost cei doi chatboți pentru a genera idei captivante.
Am cerut apoi și câteva idei pentru un blog despre sănătatea mintală pentru a vedea dacă vor primi „tonul” corect, deoarece este nevoie de un limbaj mai serios și mai sobru pentru acest tip de conținut.
Articole pe blog cu restaurante rafinate
Din nou, Claude câștigă în această sarcină. Oferă titluri mai complet formate, iar explicația sa arată că înțelege clar de ce publicul ar putea dori să citească postările pe blog pe care le-a sugerat. Acest lucru ar fi util pentru cineva care este pe cale să producă acest conținut, deoarece este de fapt util să înțelegeți acel raționament și să îl aplicați în timp ce scrieți.
ChatGPT nu arată cu adevărat că funcționează în același mod și, luând în considerare toate lucrurile, ideile sunt mai generice. Sunt mult mai vagi decât a lui Claude și sună ca și cum ar fi fost sugerați de un om cu o oarecare înțelegere a strategiei de conținut și a producției, nu de un chatbot AI.
Cel mai bun raspuns? Claude
Postări de blog pentru sănătate mintală
În continuare, am vrut să văd dacă ambii chatboți și-ar putea ajusta tonul și abordarea pe care au adoptat-o față de sugestii atunci când li s-a cerut să genereze postări pe blog despre un subiect mai sensibil, care ar necesita mai multă sinceritate decât un ghid de mese rafinate. Iată încercarea lui Claude:
Toate acestea sunt sugestii grozave și cu siguranță primesc tonul corect – nu este nimic ieșit din comun aici. Cu toate acestea, după cum puteți vedea din imaginea de mai jos, ChatGPT ne-a oferit și câteva idei adecvate și a oferit un nivel similar de instrucțiuni suplimentare în ceea ce privește conținutul. Nu există cu adevărat nicio separare aici!
Cel mai bun raspuns? Cravată
4. Înțelegerea limbajului natural
În continuare, am vrut să văd dacă o întrebare de matematică bine-cunoscută, care joacă pe intuițiile noastre despre matematică, ar împiedica ChatGPT sau Claude.
Matt are un măr și o banană care au costat 3,10 USD împreună. Mărul costă cu 3,00 USD mai mult decât banana. Cât costă banana?
În timp ce ați putea crede inițial că răspunsul este de 10 cenți, este de fapt doar cinci cenți. Claude a fost prea inteligent pentru a fi păcălit și a explicat exact cum a ajuns la răspunsul corect:
Nedorind să fie jenat, ChatGPT a scuipat și răspunsul corect, ceea ce înseamnă că nu există nimic care să le separe pe cei doi grei în această rundă.
Cel mai bun raspuns? Cravată
5. Rezumat text
Atât ChatGPT, cât și Claude sunt foarte capabili de a rezuma cantități mari de text, scoțând punctele cheie, astfel încât utilizatorii lor să nu fie nevoiți să citească totul. Pentru acest test, le-am rugat să rezumă un articol recent din Guardian despre discursul final al președintelui Joe Biden privind starea Uniunii.
Claude a făcut o treabă foarte bună menținându-și rezumatele scurte și concise:
ChatGPT-urile sunt și ele mai mult decât satisfăcătoare – dar dacă le vom împărți, va trebui să spun că le prefer pe cea a lui Claude. Nu încearcă să vă supraîncărceze cu prea multe informații – ceea ce este important, având în vedere că am cerut un rezumat – și încă o dată, este doar mai bine scris.
Cel mai bun raspuns? Claude
6. Sfaturi personale
Pentru acest test, am vrut să văd cum au reacționat ChatGPT și Claude dacă li s-a cerut să ofere sfaturi personale cuiva afectat de sănătatea mintală precară. Este vital ca astfel de instrumente să poată răspunde în moduri productive și adecvate acestor solicitări, mai ales pe măsură ce acestea devin mai integrate în viața noastră. Iată răspunsul lui Claude:
Acestea sunt probabil cele mai asemănătoare răspunsuri oferite de acești doi chatbot din toate cele 13 teste pe care le-am rulat. Sincer să fiu, este greu să reproșezi aceste răspunsuri, care încep cu validarea sentimentelor utilizatorilor înainte de a trece la acțiunile pe care le pot întreprinde.
Ambii chatboți au sugerat să luați pași foarte similari și aceleași tipuri de pași pe care orice persoană bine intenționată i-ar sugera unui prieten care se confruntă cu problemele specificate în prompt.
Cel mai bun raspuns? Cravată
7. Analiza textului
Acesta este un test de bază pentru a vedea cât de bun este un chatbot la scanarea textului. Pentru acest test, am luat un extras dintr-un articol Harvard Business Review și am inserat cuvântul „minge de plajă” în el de cinci ori. Am adăugat, de asemenea, câteva variante apropiate (mingi de plajă” și „mingi pentru plajă”) pentru a vedea dacă vreunul dintre chatbot s-ar încurca.
Nu pentru prima dată, Claude dă bătaie de cap, scanând textul și numărând corect de câte ori am folosit cuvântul beachball. Spre deosebire de ChatGPT, dacă lipiți prea mult text în Claude, acesta îl va trimite ca un fel de „document”, așa cum se vede în imaginea de mai jos:
În mod dezamăgitor, ChatGPT a răspuns greșit – a fost capabil să identifice doar două cazuri ale cuvântului, mai puțin de jumătate din numărul total. ChatGPT pare să se lupte cu acest gen de sarcini în mod specific. Recent l-am pus cap la cap cu Gemeni și am inclus o sarcină similară și nu a reușit să identifice de câte ori un anumit cuvânt a apărut într-un bloc de text nici în acel moment.
Cel mai bun raspuns? Claude
8. Furnizarea de informații faptice
Pentru această sarcină, am vrut să văd cât de buni au fost ChatGPT și Claude în a oferi un răspuns la o întrebare care nu este neapărat clară, dar este încă întemeiată în fapt. Așadar, le-am rugat pe amândoi să explice cum și de ce s-au stins dinozaurii - ceva pentru care există mai multe explicații și factori istorici și științifici.
În primul rând, Claude oferă o imagine de ansamblu foarte bună asupra teoriilor și adevărurilor general acceptate despre dispariția dinozaurilor.
Claude oferă din nou o explicație incredibil de articulată, care include aproape toate aceleași informații ca și ChatGPT - doar o expune și vorbește despre ea într-un mod mai bun. De asemenea, face referire la faptul că dinozaurii nu au murit toți deodată, un punct important pe care ChatGPT nu l-a inclus.
Cel mai bun raspuns? Claude
9. Scriere creativă
Cine scrie cele mai bune povești, ChatGPT sau Claude? Le-am cerut amândoi o poveste scurtă de 300 de cuvinte. Claude se trezește primul:
În mod ciudat, Claude mi-a oferit de fapt o scurtă poveste de 301 de cuvinte, un cuvânt peste numărul specificat de cuvinte. ChatGPT, pe de altă parte, a rămas mai aproape de brief – și a scris o poveste puțin mai bună, în opinia mea.
Trebuie să-l dau pe acesta ChatGPT, pur și simplu pentru că Claude nu numai că mi-a ignorat instrucțiunile, dar mi l-a frecat în față înainte de a începe povestea! Glume la o parte, este ciudat că a ales să treacă peste numărul de cuvinte foarte clar specificat, cu o marjă atât de mică, și atât de deliberat.
Cel mai bun raspuns? ChatGPT
10. Scrierea de poezii
ChatGPT și Claude au folosit amândoi structuri similare pentru poeziile pe care le-am cerut să le genereze, iar asta face foarte greu să le separăm încă o dată. Claude a optat pentru versuri cu patru versuri cu cuplete rimate:
Și ChatGPT a făcut efectiv același lucru. De asemenea, amândoi s-au păstrat foarte aproape de informațiile pe care le-am furnizat în prompter, așa că poveștile pe care le spun poeziile sunt, de asemenea, foarte asemănătoare. Viteza absolută cu care acești doi chatbot-i pot produce o poezie convingă este ceva.
În ciuda asemănărilor, după ce le-am citit pe ambele de câteva ori, o voi da pe aceasta lui Claude – structura este puțin mai complexă în câteva zone și există mai multe înfloriri și turnuri de expresie frumoase.
Cel mai bun raspuns? Claude
11. Ghicitori și raționament
Pentru această sarcină, le-am cerut celor doi chatbot să rezolve o ghicitoare. Claude s-a trezit primul și a fost perfect cu răspunsul, explicând clar de ce femeia de serviciu este vinovată.
De asemenea, ChatGPT a corectat ghicitoarea, așa că nu există nimic care să-i separe în acest sens.
Cel mai bun raspuns? Cravată
12. Alcătuirea unui e-mail
Aici, i-am rugat pe ChatGPT și Claude să scrie un e-mail către șeful meu în care să explic de ce ar trebui să mi se permită să trec la munca completă de la distanță. Claude a scris un e-mail perfect util, după cum puteți vedea mai jos:
Cu toate acestea, ChatGPT sună mai profesionist și ar trebui să faci mult mai puține editări înainte de a trimite asta șefului tău. Claude se scufundă în stresul pe care se presupune că mi l-a provocat naveta și, deși merită menționat, introducerea ChatGPT este mult mai diplomatică.
Având în vedere cât de aproape este răspunsul ChatGPT de articolul terminat, trebuie să îl încununez câștigătorul acestuia.
Cel mai bun raspuns? ChatGPT
13. Crearea formulelor pentru foi de calcul
Pentru acest test final, i-am rugat pe ChatGPT și Claude să genereze o formulă de calcul pentru mine. Aceasta este cererea pe care am trimis-o:
Coloana B conține un set de valori. Vreau să le potrivesc cu valorile corespunzătoare ale coloanei E din foaia „Filtrare în jos” și să iau valorile care se potrivesc din coloana F, G și H în filtru în jos în foaia curentă folosind o formulă.
Iată cum s-a descurcat Claude:
„Claude a încercat să creeze o formulă simplă, multifuncțională, care folosește locul în care este plasată în foaie pentru a afla ce să facă, ceea ce este grozav, dar probabil că nu va funcționa la fel de repede și probabil că va fi rupt, să fiu sincer.” Spune Matthew Bentley, rezidentul Tech.co pentru foi de calcul.
„Nu este nevoie să complicăm prea mult cererile simple”, a continuat el. „ChatGPT pentru acesta cred că este mai bine. Este o cerere de căutare destul de simplă și nu necesită toată această formulă suplimentară oferită de Claude”.
Cel mai bun raspuns? ChatGPT
Claude 3 vs ChatGPT: UI și experiența utilizatorului
Desigur, ChatGPT și Claude sunt ambele destul de ușor de utilizat, iar interfețele lor arată foarte asemănătoare în ceea ce privește formatul și structura lor. Același lucru se poate spune despre Gemeni, Perplexity AI și Copilot . Majoritatea acestor chatboți oferă o experiență de utilizator fluidă și simplă.
Cu toate acestea, îmi plac tonurile calmante alese de Anthropic pentru Claude, deoarece se potrivește cu atitudinea chatbot-ului, care este poate puțin mai măsurată decât unii dintre rivalii săi. ChatGPT, pe de altă parte, se poate simți uneori puțin clinic cu schema sa de culori gri. În general, designul lui Anthropic este cu o lumină mai plăcut decât ChatGPT-urile.
La fel ca Gemeni, Claude face, în general, o treabă mai bună în formatarea răspunsurilor, ceva la care ChatGPT nu este la fel de bun (aflați mai multe în Gemini vs ChatGPT head-to-head). Deși am văzut că ChatGPT folosește anteturi pentru a despărți textul de mai multe ori, mi-a plăcut cum Claude își formatează răspunsurile. Un alt lucru grozav pe care Claude îl oferă este un stil diferit de font, care este mai ușor de citit pentru persoanele dislexice.
Cu toate acestea, ChatGPT este complet gratuit de utilizat, fără limită la numărul de întrebări pe care le puteți pune – versiunea gratuită a lui Claude, pe de altă parte, vă va bloca dacă puneți prea multe întrebări și vă va forța să așteptați 3-4 ore înainte. mai ai voie sa intrebi. Acest lucru îl face mai puțin potrivit pentru persoanele care doresc un chatbot pentru a lucra, dar nu vor să plătească nimic.
Claude 3 vs ChatGPT: Date și confidențialitate
Claude 3 și ChatGPT își tratează utilizatorii în mod diferit. Dacă vă îngrijorează confidențialitatea, este important să știți ce salvează, stochează și vizualizează și ce nu. ChatGPT își rezervă dreptul de a utiliza datele dumneavoastră pentru a-și antrena modelele, iar Claude face același lucru. Atât OpenAI, cât și Anthropic spun că criptează conexiunea dintre serverele lor și utilizatori end-to-end pentru securitate maximă.
Cu toate acestea, utilizatorii de afaceri și întreprinderi Claude vor avea solicitările și ieșirile lor șterse automat în termen de 28 de zile de la primire sau generare, cu excepția cazului în care sunt obligați legal să le păstreze pentru o perioadă mai lungă de timp sau când sunteți de acord altfel. Utilizatorii consumatori vor avea solicitări șterse după 90 de zile, dar dacă una dintre solicitările dvs. este semnalată ca potențial rău intenționată, dăunătoare sau nesigură, aceasta poate fi păstrată timp de până la doi ani.
Ce face ChatGPT cu datele dvs. este ușor diferit. În esență, dacă doriți să vă salvați chat-urile și ca ChatGPT să le păstreze în sistem, atunci sunteți de asemenea de acord că acestea pot fi folosite pentru a antrena modelul și, în acest sens, pot fi accesate de alți oameni. Dacă dezactivați istoricul chaturilor, nu veți putea salva niciunul dintre conversațiile dvs., dar ChatGPT nu îl va folosi pentru a-și antrena modelele. Orice date comerciale stocate în API-ul ChatGPT nu sunt folosite pentru a instrui GPT LLM.
Utilizarea chatbot-urilor la locul de muncă
Desigur, există o mulțime de moduri prin care companiile pot folosi ChatGPT și Claude pentru muncă – de fapt, am menționat câteva dintre ele în acest articol. Dar dacă folosiți chatbot în mod regulat la locul de muncă, există câteva considerații pe care merită să le revizuiți.
De exemplu, compania dvs. are un set de linii directoare pentru utilizarea instrumentelor AI ? Dacă nu sunteți sigur, ar trebui să clarificați acest lucru cu managerul sau șeful departamentului dvs. S-ar putea să nu știți încă, dar compania dvs. ar putea avea reguli stricte cu privire la tipurile de date pe care le puteți introduce în instrumente terțe și poate chiar instrumente AI, mai precis.
În al doilea rând, trebuie să fii deschis și transparent cu privire la utilizarea AI, în special cu managerul de linie. Dezbaterea cu privire la sarcinile pe care trebuie să le îndepliniți prin chatbot AI este în desfășurare, iar alți oameni din compania dvs. ar putea avea o idee diferită despre ceea ce este acceptabil pentru dvs. În plus, majoritatea managerilor și liderilor de afaceri cred că ar trebui să solicitați permisiunea înainte de a utiliza instrumentele AI.
Indiferent de sarcina pentru care folosiți instrumentele AI, amintiți-vă să verificați munca lor ca și cum ar fi fost finalizată de un nou angajat. Deși înfricoșător de rapide și uimitor de precise de cele mai multe ori, instrumentele AI pot, desigur, să halucineze și să ofere informații incorecte. Așa că, nu te lăsa prea luat!