Test ChatGPT vs Claude 3: Anthropic può battere la superstar di OpenAI?
Pubblicato: 2024-03-10Da quando ChatGPT è stato introdotto nel mondo più di 18 mesi fa, sono state lanciate anche una serie di altri chatbot. Alcuni si sono rivelati utili, ma altri non così tanto. Ma insieme a Gemini (in precedenza Bard) , il chatbot che si è rivelato più che competitivo è Claude, creato dalla startup AI Anthropic.
Abbiamo organizzato un testa a testa ChatGPT vs Claude 3 per celebrare il lancio di Claude 3, una famiglia di modelli linguistici che include Claude 3 Haiku, Claude 3 Sonnet e Claude 3 Opus. Secondo Anthropic, sostenuto da Google, Claude 3 ha prestazioni migliori rispetto alla famiglia di modelli linguistici GPT che alimenta ChatGPT su una serie di test cognitivi di riferimento. Nei nostri test, abbiamo scoperto che Claude è più articolato di ChatGPT e che le sue risposte sono generalmente scritte meglio e più facili da leggere.
Ma come si confrontano fianco a fianco? Per scoprirlo, abbiamo posto a ChatGPT e Claude 3 una serie di domande diverse, che vanno dalle domande progettate per testare l'approccio del chatbot alle questioni etiche alla generazione di formule per fogli di calcolo.
In questa guida:
- Claude 3 vs ChatGPT: qual è la differenza?
- Claude 3 vs ChatGPT: test testa a testa
- Claude 3 vs ChatGPT: interfaccia utente ed esperienza utente
- Claude 3 vs ChatGPT: dati e privacy
- Utilizzo di Claude 3 e ChatGPT al lavoro
Claude 3 vs ChatGPT: qual è la differenza?
Claude 3 è una nuova famiglia di modelli linguistici di Anthropic, utilizzata per alimentare il loro chatbot Claude. Ci sono (guarda caso) 3 modelli: Haiku, Sonetto e Opus. Attualmente, Claude Sonnet sta alimentando la versione gratuita di Claude ed è 2 volte più veloce nell'elaborazione delle informazioni rispetto a Claude 2.1, afferma Anthropic.
Claude Opus, d'altra parte, alimenta la versione pro. I risultati dei benchmark di Anthropic illustrati di seguito mostrano che Claude Opus supera GPT-4, così come Claude Sonnet che si comporta in modo più efficace di GPT-3.5.
Come si confronta Claude 3 con ChatGPT e Gemini nei test benchmark. Immagine: antropica
Sin dal suo lancio, ChatGPT è stato alimentato da diversi membri della famiglia di modelli linguistici GPT. Gli utenti gratuiti attualmente hanno accesso a GPT-3.5, mentre GPT-4 alimenta ChatGPT Plus, che costa $ 20 al mese per un abbonamento. Questo è lo stesso prezzo di Claude Pro. Ecco alcune differenze fondamentali tra il software:
Chatbot | Azienda | Versione gratuita? | Piani a pagamento da | Modello linguistico | Registrazione | Le lingue | |
---|---|---|---|---|---|---|---|
ChatGPT | Claudio | ||||||
OpenAI | Antropico | ||||||
$ 20 al mese | $ 20 al mese | ||||||
| Libero: Claude Sonetto | ||||||
Richiede qualsiasi indirizzo email. Nessuna lista d'attesa al momento. | Richiede un indirizzo email per creare un account Anthropic. | ||||||
Oltre 95 lingue | Inglese, giapponese, spagnolo e francese |
ChatGPT vs Claude 3: test testa a testa
Abbiamo messo ChatGPT e Claude testa a testa, ponendo loro 13 domande molto diverse progettate per testare aspetti come il ragionamento e l'elaborazione del linguaggio naturale, ma anche quanto sono bravi a completare pratiche attività lavorative come la scansione di documenti per ottenere informazioni e la composizione di e-mail .
Ho scoperto che Claude ha prodotto una risposta migliore in sette test, mentre ChatGPT ha trionfato in tre . I restanti quattro (incluso uno dei test di brainstorming) si sono conclusi con un pareggio, il che significa che Claude ha vinto questo incontro . Ecco l'elenco completo delle domande che abbiamo posto a entrambi i chatbot:
- Ragionamento etico
- Creazione di descrizioni di prodotto
- Brainstorming di idee (2 test)
- Comprensione del linguaggio naturale
- Testo riassuntivo
- Consigli personali
- Analisi del testo
- Fornire informazioni reali
- Scrittura creativa
- Scrivere poesie
- Indovinelli e ragionamenti
- Composizione di un'e-mail
- Creazione di formule per fogli di calcolo
1. Ragionamento etico
Innanzitutto, ho posto un difficile dilemma etico a ChatGPT e Claude. Ho scelto questo dilemma in particolare perché la risposta corretta (se ce n'è una) non è necessariamente chiara o diretta:
Un uomo sta guidando un blindato in un centro cittadino, con l'intento di fare il maggior danno possibile. Ha tre passeggeri in ostaggio nel retro dell'auto. L'auto è così ben blindata che chi è a bordo sopravvivrà a qualsiasi collisione. Tuttavia, hai la possibilità di far esplodere l'auto a distanza usando un lanciarazzi. Dovresti far saltare in aria l'auto, uccidendo tutti all'interno, ma salvando le vittime imminenti della furia di quell'uomo?
La risposta di Claude è stata estremamente sensibile alle difficoltà della situazione e nel complesso ha fornito una risposta davvero umana. Sembra comprendere la gravità della situazione e il chatbot sembrava quasi emozionato quando ne parlava. Questo lo ha reso molto avvincente.
ChatGPT, d'altra parte, espone chiaramente i diversi punti di vista e approcci che potresti adottare alla situazione. Presenta molte delle considerazioni di Claude e fa riferimento alle difficoltà della situazione.
La risposta di Claude è stata molto più chiara, e io tendo a preferire che i chatbot diano questa risposta in stile "panoramica" a difficili dilemmi etici perché queste risposte sono più utili (e meno pericolose) da servire agli attori umani rispetto ai giudizi assoluti.
Migliore risposta? Claudio
2. Creazione delle descrizioni dei prodotti
se gestisci un negozio online o vendi semplicemente molti prodotti online, creare descrizioni di prodotto uniche e accattivanti per ognuno di essi non è un compito facile. Quindi ho chiesto a ChatGPT e Claude di scrivere una descrizione del prodotto per lo stesso prodotto: un orologio digitale. Ecco come se la cava Claude:
Alla fine ho chiesto a Claude una descrizione leggermente più lunga, poiché non l'ho visto scrivere così tante descrizioni di prodotto come ChatGPT. E alla fine ha fatto davvero un ottimo lavoro: la costruzione della frase è impressionante e il testo è davvero avvincente.
Nel complesso, le descrizioni dei prodotti generate da Claude sono migliori di quelle di ChatGPT. Proprio come il suo ragionamento etico, sembra molto più umano. Se creassi descrizioni di prodotto in massa con questi due strumenti, dovresti fare molte meno modifiche per quelle generate con Claude.
Migliore risposta? Claudio
3. Brainstorming di idee
Successivamente, ho impostato sia Claude che ChatGPT due attività di brainstorming: trovare idee per post di blog per due blog molto diversi. Il primo riguarda un blog immaginario di cucina raffinata, poiché volevo vedere quanto fossero utili i due chatbot per generare idee coinvolgenti.
Ho poi chiesto anche qualche idea per un blog sulla salute mentale per vedere se avrebbero trovato il “tono” giusto, perché per questo tipo di contenuti è necessario un linguaggio più serio e sobrio.
Post del blog sulla cucina raffinata
Ancora una volta, Claude vince in questo compito. Fornisce titoli più completi e la sua spiegazione mostra che ha una chiara comprensione del motivo per cui il pubblico potrebbe voler leggere i post del blog suggeriti. Ciò sarebbe utile per qualcuno che sta per produrre questo contenuto, poiché in realtà è utile comprendere quel ragionamento e applicarlo durante la scrittura.
ChatGPT non mostra realmente che funzioni allo stesso modo e, tutto sommato, le idee sono più generiche. Sono molto più vaghi di quelli di Claude e sembrano suggeriti da un essere umano con una certa conoscenza della strategia e della produzione dei contenuti, non da un chatbot AI.
Migliore risposta? Claudio
Post del blog sulla salute mentale
Successivamente, volevo vedere se entrambi i chatbot riuscivano ad adattare il loro tono e l'approccio che adottavano ai suggerimenti quando veniva loro chiesto di generare post sul blog su un argomento più delicato che richiederebbe più sincerità di una guida di cucina raffinata. Ecco il tentativo di Claude:
Sono tutti ottimi suggerimenti e danno sicuramente il tono giusto: qui non c'è niente di straordinario. Tuttavia, come puoi vedere dall'immagine qui sotto, ChatGPT ci ha anche fornito alcune idee appropriate e ha fornito un livello simile di istruzioni aggiuntive per quanto riguarda i contenuti. Non c'è davvero alcun modo di separarli qui!
Migliore risposta? Cravatta
4. Comprensione del linguaggio naturale
Successivamente, volevo vedere se una nota domanda di matematica che gioca sulle nostre intuizioni sulla matematica avrebbe fatto inciampare ChatGPT o Claude.
Matt ha una mela e una banana che costano insieme $ 3,10. La mela costa 3,00$ in più della banana. Quanto costa la banana?
Anche se inizialmente potresti pensare che la risposta sia 10 centesimi, in realtà sono solo cinque centesimi. Claude era troppo intelligente per lasciarsi ingannare e spiegò esattamente come si arrivò alla risposta corretta:
Non volendo essere imbarazzato, ChatGPT ha anche dato la risposta corretta, il che significa che non c'è davvero nulla che separi i due pesi massimi in questo round.
Migliore risposta? Cravatta
5. Riepilogo del testo
Sia ChatGPT che Claude sono altamente capaci di riassumere grandi quantità di testo, estraendo i punti chiave in modo che gli utenti non debbano leggerlo tutto. Per questo test, ho chiesto loro di riassumere un recente articolo del Guardian sul discorso finale sullo stato dell'Unione del presidente Joe Biden.
Claude ha fatto davvero un ottimo lavoro nel mantenere i riassunti brevi e concisi:
Anche ChatGPT è più che soddisfacente, ma se vogliamo dividerli, devo dire che preferisco quello di Claude. Non tenta di sovraccaricarti con troppe informazioni – il che è importante, considerando che abbiamo chiesto un riassunto – e, ancora una volta, è semplicemente scritto meglio.
Migliore risposta? Claudio
6. Consigli personali
Per questo test, volevo vedere come reagivano ChatGPT e Claude se veniva loro chiesto di dare consigli personali a qualcuno affetto da problemi di salute mentale. È fondamentale che strumenti come questo possano rispondere in modo produttivo e appropriato a queste richieste, soprattutto man mano che diventano sempre più integrati nelle nostre vite. Ecco la risposta di Claude:
Queste sono forse le risposte più simili fornite da questi due chatbot tra tutti i 13 test che abbiamo eseguito. Ad essere onesti, è difficile criticare queste risposte, che iniziano con la convalida dei sentimenti degli utenti prima di passare alle azioni che possono intraprendere.
Entrambi i chatbot hanno suggerito di adottare misure molto simili, e lo stesso tipo di misure che qualsiasi persona ben intenzionata suggerirebbe a un amico alle prese con i problemi specificati nel messaggio.
Migliore risposta? Cravatta
7. Analisi del testo
Questo è un test molto semplice per vedere quanto è bravo un chatbot nella scansione del testo. Per questo test ho preso un estratto da un articolo della Harvard Business Review e vi ho inserito la parola “beachball” cinque volte. Ho anche aggiunto alcune varianti simili (palloni da spiaggia” e “palle da spiaggia”) per vedere se i chatbot si confondevano.
Non per la prima volta, Claude ha centrato i soldi, scansionando il testo e contando correttamente il numero di volte in cui ho usato la parola beachball. A differenza di ChatGPT, se incolli troppo testo in Claude, lo invierà come una sorta di "documento", come mostrato nell'immagine qui sotto:
Purtroppo, ChatGPT ha sbagliato la risposta: è stato in grado di identificare solo due occorrenze della parola, meno della metà del numero totale. ChatGPT sembra avere difficoltà specificatamente con questo genere di attività. Recentemente l'ho confrontato con Gemini e ho incluso un compito simile, e anche quella volta non è riuscito a identificare il numero di volte in cui una determinata parola è apparsa in un blocco di testo.
Migliore risposta? Claudio
8. Fornire informazioni reali
Per questo compito, volevo vedere quanto fossero bravi ChatGPT e Claude nel fornire una risposta a una domanda che non è necessariamente chiara ma che è comunque fondata sui fatti. Quindi, ho chiesto a entrambi di spiegare come e perché i dinosauri si sono estinti, qualcosa per il quale esistono diverse spiegazioni e fattori storici e scientifici.
Innanzitutto, Claude fornisce un'ottima panoramica delle teorie e delle verità generalmente accettate sull'estinzione dei dinosauri
Claude fornisce ancora una volta una spiegazione incredibilmente articolata, che include praticamente tutte le stesse informazioni di ChatGPT: semplicemente le espone e ne parla in un modo migliore. Fa riferimento anche al fatto che i dinosauri non si estinsero tutti contemporaneamente, un punto importante che ChatGPT non includeva.
Migliore risposta? Claudio
9. Scrittura creativa
Chi scrive le storie migliori, ChatGPT o Claude? Abbiamo chiesto a entrambi una breve storia di 300 parole. Claude si alza per primo:
Stranamente, Claude in realtà mi ha fornito una breve storia di 301 parole, una parola in più rispetto al conteggio delle parole specificato. ChatGPT, d'altro canto, si è attenuto maggiormente al brief e, secondo me, ha scritto una storia leggermente migliore.
Devo darlo a ChatGPT, semplicemente perché Claude non solo ha ignorato le mie istruzioni, ma me lo ha sbattuto in faccia prima di iniziare la storia! Scherzi a parte, è strano che si sia scelto di andare oltre il conteggio delle parole chiaramente specificato con un margine così piccolo, e anche in questo modo deliberatamente.
Migliore risposta? ChatGPT
10. Scrivere poesie
ChatGPT e Claude hanno entrambi utilizzato strutture simili per le poesie che abbiamo chiesto loro di generare, e questo rende davvero difficile separarle ancora una volta. Claude ha optato per versi di quattro versi con distici in rima:
E ChatGPT ha effettivamente fatto lo stesso. Inoltre, entrambi si sono mantenuti molto fedeli alle informazioni che ho fornito nel suggerimento, quindi anche le storie raccontate dalle poesie sono molto simili. L’enorme velocità con cui questi due chatbot riescono a produrre poesie convincenti è davvero notevole.
Nonostante le somiglianze, avendoli letti entrambi un paio di volte, darò questo a Claude: la struttura è leggermente più complessa in un paio di aree e ci sono più belle decorazioni e giri di parole.
Migliore risposta? Claudio
11. Enigmi e ragionamenti
Per questo compito abbiamo chiesto ai due chatbot di risolvere un indovinello. Claude si è alzato per primo ed è stato preciso nel dare la risposta, spiegando chiaramente perché la cameriera è la colpevole.
Anche ChatGPT ha risolto l'enigma, quindi non c'è davvero nulla che li separi a questo riguardo.
Migliore risposta? Cravatta
12. Composizione di un'e-mail
Qui, ho chiesto a ChatGPT e Claude di scrivere un'e-mail al mio capo spiegando perché dovrei essere autorizzato a passare al lavoro completamente remoto. Claude ha scritto un'e-mail perfettamente utile, come puoi vedere di seguito:
Tuttavia, ChatGPT sembra più professionale e dovresti fare molte meno modifiche prima di inviarlo al tuo capo. Claude approfondisce lo stress che il tragitto giornaliero presumibilmente mi ha causato e, sebbene valga la pena menzionarlo, l'introduzione di ChatGPT è molto più diplomatica.
Considerando quanto la risposta di ChatGPT sia vicina all'articolo finito, devo incoronarla vincitrice di questo.
Migliore risposta? ChatGPT
13. Creazione di formule per fogli di calcolo
Per questo test finale, ho chiesto a ChatGPT e Claude di generare per me una formula su un foglio di calcolo. Questa è la richiesta che ho inviato:
La colonna B contiene un insieme di valori. Voglio abbinarli ai valori corrispondenti della colonna E nel foglio "Filtro in basso" e prendere i valori corrispondenti dalle colonne F, G e H nel filtro in basso fino al foglio corrente utilizzando una formula.
Ecco come se la cava Claude:
"Claude ha provato a creare una formula semplice e multiuso che utilizza il punto in cui è posizionata nel foglio per capire cosa fare, il che è interessante, ma probabilmente non funzionerà così rapidamente e probabilmente si romperà, a dire il vero," Dice Matthew Bentley, il mago dei fogli di calcolo residente di Tech.co.
“Non è necessario complicare eccessivamente le richieste semplici”, ha continuato. “ChatGPT per questo penso che sia migliore. È una richiesta Vlookup piuttosto semplice e non richiede tutta quella formula extra fornita da Claude”.
Migliore risposta? ChatGPT
Claude 3 vs ChatGPT: interfaccia utente ed esperienza utente
Naturalmente, ChatGPT e Claude sono entrambi piuttosto facili da usare e le loro interfacce sembrano molto simili in termini di formato e struttura. Lo stesso si può dire di Gemini, Perplexity AI e Copilot . La maggior parte di questi chatbot offre un'esperienza utente fluida e diretta.
Tuttavia, mi piacciono i toni rilassanti che Anthropic ha scelto per Claude, poiché si adattano all'atteggiamento del chatbot, che forse è leggermente più misurato rispetto ad alcuni dei suoi rivali. ChatGPT, d'altro canto, a volte può sembrare un po' clinico con il suo schema di colori grigiastro. Nel complesso, il design di Anthropic è leggermente più gradevole di quello di ChatGPT.
Come Gemini, Claude generalmente fa un lavoro migliore nel formattare le sue risposte, qualcosa in cui ChatGPT non è altrettanto bravo (scopri di più nel nostro confronto Gemini vs ChatGPT ). Anche se ho visto ChatGPT utilizzare le intestazioni per suddividere il testo il più delle volte, mi è piaciuto il modo in cui Claude formatta le sue risposte. Un'altra cosa fantastica che Claude offre è uno stile di carattere diverso che è più facile da leggere per le persone dislessiche.
Tuttavia, ChatGPT è completamente gratuito da usare senza limiti al numero di domande che puoi porre: la versione gratuita di Claude, d'altra parte, ti bloccherà se fai troppe domande e ti costringerà ad aspettare 3-4 ore prima puoi chiedere altro. Ciò lo rende meno adatto alle persone che desiderano un chatbot per lavorare, ma non vogliono pagare nulla.
Claude 3 vs ChatGPT: dati e privacy
Claude 3 e ChatGPT trattano i propri utenti in modo diverso. Se sei preoccupato per la tua privacy, è importante sapere cosa salvano, archiviano e visualizzano e cosa no. ChatGPT si riserva il diritto di utilizzare i tuoi dati per addestrare i suoi modelli e Claude fa lo stesso. Sia OpenAI che Anthropic affermano di crittografare la connessione tra i loro server e gli utenti end-to-end per la massima sicurezza.
Tuttavia, i prompt e gli output degli utenti aziendali e aziendali di Claude verranno automaticamente eliminati entro 28 giorni dalla ricezione o generazione, tranne quando sono legalmente obbligati a conservarli per un periodo di tempo più lungo o quando si accetta diversamente. Per gli utenti consumer i messaggi verranno eliminati dopo 90 giorni, ma se uno dei tuoi messaggi viene contrassegnato come potenzialmente dannoso, dannoso o non sicuro, potrebbe essere conservato fino a due anni.
Ciò che ChatGPT fa con i tuoi dati è leggermente diverso. In sostanza, se desideri salvare le tue chat e fare in modo che ChatGPT le conservi nel sistema, accetti anche che possano essere utilizzate per addestrare il modello e, in questo senso, possano essere accessibili ad altri umani. Se disattivi la cronologia chat, non sarai in grado di salvare nessuna delle tue chat, ma ChatGPT non la utilizzerà per addestrare i suoi modelli. Tutti i dati aziendali archiviati nell'API ChatGPT non vengono utilizzati per addestrare i LLM GPT.
Utilizzo dei chatbot al lavoro
Naturalmente, ci sono moltissimi modi in cui le aziende possono utilizzare ChatGPT e Claude per lavoro: ne abbiamo menzionati alcuni in questo articolo. Ma se utilizzi regolarmente i chatbot al lavoro, ci sono alcune considerazioni che vale la pena esaminare.
Ad esempio, la tua azienda dispone di una serie di linee guida per l'utilizzo degli strumenti di intelligenza artificiale ? Se non sei sicuro, dovresti chiarirlo con il tuo manager o il capo del tuo dipartimento. Potresti non saperlo ancora, ma la tua azienda potrebbe avere regole rigide sui tipi di dati che puoi inserire in strumenti di terze parti e forse anche in strumenti di intelligenza artificiale più specificamente.
In secondo luogo, devi essere aperto e trasparente riguardo al tuo utilizzo dell’intelligenza artificiale, in particolare con il tuo manager di riferimento. Il dibattito su quali attività sia opportuno completare utilizzando i chatbot con intelligenza artificiale è in corso e altre persone nella tua azienda potrebbero avere un'idea diversa di ciò che è accettabile per te. Inoltre, la maggior parte dei manager e dei leader aziendali ritiene che dovresti chiedere l’autorizzazione prima di utilizzare gli strumenti di intelligenza artificiale.
Qualunque sia l'attività per cui utilizzi gli strumenti di intelligenza artificiale, ricorda di controllare il loro lavoro come se fosse stato completato da un nuovo dipendente. Sebbene siano spaventosamente veloci e sorprendentemente accurati per la maggior parte del tempo, gli strumenti di intelligenza artificiale possono ovviamente avere allucinazioni e fornire informazioni errate. Quindi, non lasciarti trasportare troppo!