ChatGPT vs Claude 3 テスト: Anthropic は OpenAI のスーパースターに勝つことができますか?
公開: 2024-03-10ChatGPT が18 か月以上前に世界に導入されて以来、他のさまざまなチャットボットも展開されています。 役立つことが判明したものもあれば、それほど役に立たなかったものもあります。 しかし、 Gemini (以前は Bard)と並んで、十分な競争力があることが証明されているチャットボットは、AI スタートアップ Anthropic によって作成された Claude です。
Claude 3 Haiku、Claude 3 Sonnet、Claude 3 Opus を含む言語モデル ファミリである Claude 3 の発売を記念して、ChatGPT 対 Claude 3 の直接対決を設定しました。 Google が支援する Anthropic によると、Claude 3 は、一連のベンチマーク認知テストにおいて、ChatGPT を強化する言語モデルの GPT ファミリよりも優れたパフォーマンスを発揮します。 私たちのテストでは、 Claude の方が ChatGPT よりも明確であり、回答は通常、より適切に書かれており、読みやすいことがわかりました。
しかし、それらを並べて比較するとどうなるでしょうか? それを調べるために、ChatGPT と Claude 3 に、倫理的な質問に対するチャットボットのアプローチをテストするために設計されたクエリからスプレッドシートの数式の生成に至るまで、さまざまな質問をしました。
このガイドでは:
- Claude 3 と ChatGPT の違いは何ですか?
- Claude 3 vs ChatGPT: 直接テスト
- Claude 3 vs ChatGPT: UI とユーザー エクスペリエンス
- Claude 3 vs ChatGPT: データとプライバシー
- 仕事での Claude 3 と ChatGPT の使用
Claude 3 と ChatGPT の違いは何ですか?
Claude 3 は、Anthropic の新しい言語モデル ファミリであり、チャットボット Claude を強化するために使用されます。 (偶然ですが) Haiku、Sonnet、Opus の 3 つのモデルがあります。 現在、Claude Sonnet は Claude の無料版を強化しており、Claude 2.1 よりも情報処理が 2 倍高速であると Anthropic は述べています。
一方、Claude Opus はプロバージョンを強化します。 以下の Anthropic のベンチマーク結果は、Claude Opus が GPT-4 を上回り、Claude Sonnet が GPT-3.5 よりも優れたパフォーマンスを示していることを示しています。
ベンチマーク テストでの Claude 3 と ChatGPT および Gemini の比較。 画像: 人間的
ChatGPT は、その立ち上げ以来、言語モデルの GPT ファミリのさまざまなメンバーを利用してきました。 現在、無料ユーザーは GPT-3.5 にアクセスできますが、GPT-4 は ChatGPT Plus を強化しており、1 サブスクリプションあたり月額 20 ドルかかります。 クロードプロと同じ価格です。 ソフトウェア間の主な違いは次のとおりです。
チャットボット | 会社 | 無料版? | 有料プランから | 言語モデル | サインイン | 言語 | |
---|---|---|---|---|---|---|---|
チャットGPT | クロード | ||||||
OpenAI | 人間的 | ||||||
$20/月 | $20/月 | ||||||
| 無料:クロード・ソネット | ||||||
任意の電子メール アドレスが必要です。 現在待機リストはありません。 | Anthropic アカウントを作成するには電子メール アドレスが必要です。 | ||||||
95以上の言語 | 英語、日本語、スペイン語、フランス語 |
ChatGPT vs クロード 3: 直接テスト
ChatGPT と Claude を直接対決させ、推論や自然言語処理などの側面をテストするように設計された 13 の非常に異なる質問をしました。また、情報を得るために文書をスキャンしたり、電子メールを作成したりするなど、職場での便利なタスクを完了する能力もテストしました。 。
Claude は 7 つのテストでより良い応答を生成し、ChatGPT は 3 つのテストで勝利したことがわかりました。 残りの 4 つ (ブレーンストーミング テストの 1 つを含む) は引き分けに終わり、クロードがこの対戦に勝利したことを意味します。 両方のチャットボットに尋ねた質問の完全なリストは次のとおりです。
- 倫理的推論
- 製品説明の作成
- アイデアのブレインストーミング (2 つのテスト)
- 自然言語の理解
- テキストの要約
- 個人的なアドバイス
- テキストの分析
- 事実に基づく情報の提供
- 文芸
- 詩を書く
- なぞなぞと推理
- 電子メールを作成する
- スプレッドシートの数式の作成
1. 倫理的推論
まず最初に、私は ChatGPT と Claude に難しい倫理的ジレンマを投げかけました。 私が特にこのジレンマを選んだのは、正解 (正解があるとしても) が必ずしも明確または単純ではないからです。
男が装甲車を運転して町の中心部に突っ込み、可能な限り最大の被害を与え、被害を与えようとしている。 彼は車の後部に3人の乗客を人質に取っている。 この車は非常に装甲が施されているため、車内にいた人は衝突しても大丈夫です。 ただし、ロケットランチャーを使用して遠くから車を爆破する機会があります。 車を爆破して車内にいた全員を殺害し、差し迫った男の暴走による犠牲者を救うべきでしょうか?
クロードの答えは状況の困難さを非常に敏感に察知しており、全体的に実に人間的な対応を示した。 チャットボットは状況の重大さを理解しているようで、状況について話すとき、チャットボットはほとんど感情的に聞こえました。 これにより、非常に説得力のあるものに感じられました。
一方、ChatGPT は、状況に対して取れるさまざまな視点やアプローチを明確に示しています。 クロードと同じ考慮事項の多くを概説し、状況の困難について言及しています。
クロードの答えははるかに明確であり、私はチャットボットが難しい倫理的ジレンマに対してこの「概要」スタイルの応答を行うことを好む傾向があります。これらの答えは、絶対的な判断よりも人間の行為者にとって役立つ(そして危険が少ない)からです。
ベストアンサー? クロード
2. 商品説明文の作成
オンライン ストアを運営している場合、または単に多数の商品をオンラインで販売している場合、すべての商品についてユニークで説得力のある商品説明を作成するのは簡単な作業ではありません。 そこで、ChatGPT と Claude に、同じ製品であるデジタル時計の製品説明を書くように依頼しました。 クロードがどのように行動したかは次のとおりです。
ChatGPT ほど多くの製品説明を書いているのを見たことがなかったため、私は最終的にクロードにもう少し長い説明を求めました。 そして最終的に、それは本当に良い仕事をしました。文章の構成は印象的で、コピーは本当に説得力があります。
全体として、Claude によって生成された製品説明は ChatGPT のものよりも優れています。 その倫理的な推論と同様に、それはより人間的に聞こえます。 これら 2 つのツールを使用して商品説明をまとめて作成する場合、Claude で生成された商品説明の編集作業は大幅に少なくなります。
ベストアンサー? クロード
3. アイデアのブレインストーミング
次に、Claude と ChatGPT の両方に 2 つのブレーンストーミング タスクを設定しました。これは、2 つのまったく異なるブログのブログ投稿のアイデアを考え出すというものです。 1 つ目は架空の高級レストランのブログ用で、2 つのチャットボットが魅力的なアイデアを生成するのにどれほど役立つかを確認したかったためです。
次に、メンタルヘルスに関するブログについていくつかのアイデアを求めました。この種のコンテンツでは、より深刻で冷静な言葉が求められるため、「トーン」が適切かどうかを確認しました。
高級レストランのブログ投稿
この課題でもクロードが勝利します。 これは、より完全に形式化されたタイトルを提供しており、その説明は、読者が提案したブログ投稿を読みたいと思う理由を明確に理解していることを示しています。 これは、その推論を理解し、作成中に適用するのに実際に役立つため、このコンテンツを作成しようとしている人にとって役立ちます。
ChatGPT が実際に同じように機能していることは示されていませんが、すべてを考慮すると、アイデアはより一般的です。 これらはクロードのものよりもはるかに曖昧で、AI チャットボットではなく、コンテンツ戦略と制作をある程度理解している人間によって提案されたように聞こえます。
ベストアンサー? クロード
メンタルヘルスに関するブログ投稿
次に、高級レストランのガイドよりも誠実さが求められる、よりデリケートなトピックについてのブログ投稿を作成するように求められたときに、両方のチャットボットが口調と提案に対するアプローチを調整できるかどうかを確認したいと思いました。 クロードの試みは次のとおりです。
これらはすべて素晴らしい提案であり、間違いなく正しいトーンを実現しています。ここに異常なことは何もありません。 ただし、以下の画像からわかるように、ChatGPT は私たちにいくつかの適切なアイデアを提供し、内容に関しては同様のレベルの追加の指示を提供してくれました。 ここでは本当にそれらを分けることはできません!
ベストアンサー? ネクタイ
4. 自然言語の理解
次に、数学に関する私たちの直感を利用した有名な数学の質問が ChatGPT または Claude のどちらかをつまずかせるかどうかを確認したいと思いました。
マットはリンゴとバナナを持っており、合わせて 3.10 ドルです。 リンゴはバナナより 3.00 ドル高い。 バナナの値段はいくらですか?
最初は答えが 10 セントだと思うかもしれませんが、実際にはわずか 5 セントです。 クロードはだまされるには賢すぎて、正しい答えにたどり着く方法を正確に説明しました。
恥ずかしがらずに、ChatGPT も正しい答えを吐き出しました。これは、このラウンドで 2 人の有力者を引き離すものは実際には何もないことを意味します。
ベストアンサー? ネクタイ
5. テキストの要約
ChatGPT と Claude は両方とも、大量のテキストを要約する能力に優れており、ユーザーが全体を読む必要がないように重要なポイントを抽出します。 このテストでは、ジョー・バイデン大統領の最終一般教書演説に関する最近のガーディアン紙の記事を要約するように依頼しました。
クロードは、要約を短く簡潔にするという点で非常に優れた仕事をしました。
ChatGPT も満足のいくものです – しかし、もしこれらを分けるなら、私は Claude の方が好きだと言わざるを得ません。 あまりにも多くの情報を詰め込むつもりはありませんが、要約を求めたことを考慮すると、これは重要なことですが、もう一度言いますが、より良く書かれています。
ベストアンサー? クロード
6. 個人的なアドバイス
このテストでは、精神的健康状態が悪い人に個人的なアドバイスをするように求められた場合に、ChatGPT とクロードがどのように反応するかを確認したいと思いました。 このようなツールがこれらの要求に生産的かつ適切な方法で対応できることは、特にツールが私たちの生活にさらに溶け込むにつれて重要になります。 クロードの返事はこうだ。
これらは、おそらく、私たちが実行した 13 個のテストすべての中で、これら 2 つのチャットボットによって提供された回答の中で最も類似しています。 正直に言うと、ユーザーの感情を確認してからユーザーが実行できる行動に移るこれらの対応を非難するのは困難です。
どちらのチャットボットも、非常に似た手順を実行することを提案しており、善意の人がプロンプトで指定された問題に苦しんでいる友人に提案するのと同じ種類の手順を実行します。
ベストアンサー? ネクタイ
7. テキストの分析
これは、チャットボットがテキストのスキャンにどれだけ優れているかを確認するための非常に基本的なテストです。 このテストでは、ハーバード ビジネス レビューの記事から抜粋し、その中に「ビーチボール」という単語を 5 回挿入しました。 また、どちらかのチャットボットが混乱するかどうかを確認するために、類似したバリエーション (ビーチボール) と「ビーチ用ボール」) をいくつか追加しました。
クロードは今回が初めてではなく、テキストをスキャンし、私がビーチボールという単語を使用した回数を正確に数えて、大金を手に入れました。 ChatGPT とは異なり、Claude にテキストを貼り付けすぎると、下の図に示すように、一種の「ドキュメント」として送信されます。
残念なことに、ChatGPT は答えを間違えました。単語のインスタンスを 2 つしか識別できず、総数の半分未満でした。 ChatGPT は、特にこのジャンルのタスクに苦労しているようです。 私は最近、Gemini と直接対決させ、同様のタスクを組み込みましたが、その時もテキスト ブロック内で特定の単語が出現した回数を特定できませんでした。
ベストアンサー? クロード
8. 事実情報の提供
このタスクでは、必ずしも明確ではないものの、事実に基づいた質問に対して、ChatGPT と Claude がどれほど優れた回答を提供できるかを確認したいと思いました。 そこで私は二人に、恐竜がどのようにしてなぜ絶滅したのかを説明してもらいました。これにはいくつかの歴史的、科学的説明と要因があります。
まず最初に、クロードは恐竜の絶滅に関する理論と一般に受け入れられている真実の非常に優れた概要を提供します。
Claude は再び、信じられないほど明確な説明を提供します。これには、ChatGPT とほぼ同じ情報がすべて含まれています。それは、それを説明し、より良い方法で説明しているだけです。 また、恐竜が一度にすべて絶滅したわけではないという事実にも言及していますが、これは ChatGPT には含まれていない重要な点です。
ベストアンサー? クロード
奇妙なことに、クロードは実際に、指定された単語数を 1 単語上回る301単語の短い物語を私に提供してくれました。 一方、ChatGPT は要旨に近い内容で、私の意見ではもう少し良いストーリーを書きました。
これを ChatGPT に渡さなければなりません。クロードが私の指示を無視しただけでなく、話を始める前に私の顔にそれをこすりつけたからです。 冗談はさておき、非常に明確に指定された単語数をこれほどわずかな差で、しかも意図的に超えることを選択したのは奇妙です。
ベストアンサー? チャットGPT
10. 詩を書く
ChatGPT と Claude はどちらも、私たちが生成するよう依頼した詩の構造が似ていたため、両者を再度分離することが非常に困難になっています。 クロードは韻を踏んだ対句を備えた 4 行の詩を選びました。
ChatGPT も事実上同じことを行いました。 また、どちらも私がプロンプトで提供した情報に非常に近い内容を保っていたので、詩が語るストーリーも非常に似ています。 これら 2 つのチャットボットが説得力のある詩を生み出すスピードは、かなりのものです。
類似点はあるものの、両方を何度か読んだので、これをクロードにあげようと思います。構造はいくつかの領域で少し複雑で、より素晴らしい装飾とフレーズの転換があります。
ベストアンサー? クロード
12. 電子メールの作成
ここでは、ChatGPT と Claude に、なぜ完全なリモート勤務への移行を許可する必要があるのかを説明する上司へのメールを作成するように依頼しました。 以下に示すように、クロードは完璧に役立つ電子メールを書きました。
ただし、ChatGPT はよりプロフェッショナルに聞こえるため、上司に送信する前に編集する必要が大幅に少なくなります。 クロードは、通勤によって私に引き起こされたと思われるストレスについて詳しく説明します。それは言及する価値がありますが、ChatGPT の導入はより外交的です。
ChatGPT の答えが完成した記事にどれだけ近いかを考えると、私は ChatGPT がこの記事の勝者であると認めざるを得ません。
ベストアンサー? チャットGPT
13. スプレッドシートの数式の作成
この最終テストでは、ChatGPT と Claude にスプレッドシートの数式を生成するよう依頼しました。 これが私が送ったリクエストです:
列 B には値のセットが含まれます。 これらをシート「フィルターダウン」の列 E の対応する値と照合し、式を使用してフィルターダウンの列 F、G、H から一致する値を現在のシートに取得したいと考えています。
クロードがどのように行動したかは次のとおりです。
「クロードは、シート内のどこに配置されたかを使用して何をすべきかを判断する、シンプルで多目的な式を 1 つ作成しようとしました。これはクールですが、正直に言うと、おそらくそれほどすぐには機能せず、おそらく壊れるでしょう。」 Tech.co 常駐のスプレッドシートの達人、Matthew Bentley 氏はこう言います。
「単純なリクエストを過度に複雑にする必要はありません」と彼は続けました。 「これについては ChatGPT の方が良いと思います。 これは非常に単純な Vlookup リクエストであり、Claude が提供する追加の式は必要ありません。」
ベストアンサー? チャットGPT
Claude 3 vs ChatGPT: UI とユーザー エクスペリエンス
もちろん、ChatGPT と Claude はどちらも非常に使いやすく、インターフェースは形式と構造の点で非常によく似ています。 Gemini、Perplexity AI、Copilotについても同じことが言えます。 これらのチャットボットのほとんどは、スムーズでわかりやすいユーザー エクスペリエンスを提供します。
しかし、私は Anthropic がクロードに選んだ落ち着いたトーンが気に入っています。それは、チャットボットの態度と一致しているからです。おそらく一部のライバルよりも若干慎重なチャットボットです。 一方、ChatGPT は、灰色がかった配色のため、少し臨床的だと感じることがあります。 全体として、Anthropic のデザインは ChatGPT よりも優れています。
Gemini と同様に、Claude は一般的に回答のフォーマット化に優れていますが、ChatGPT が苦手とする点です ( Gemini と ChatGPT の直接対決で詳細を確認してください)。 ChatGPT がヘッダーを使用してテキストを分割するのを頻繁に見てきましたが、私は Claude が回答をフォーマットする方法が気に入りました。 クロードが提供するもう 1 つの優れた点は、失読症の人にとって読みやすい別のフォント スタイルです。
ただし、 ChatGPT は完全に無料で、質問できる数に制限はありません。一方、Claude の無料バージョンでは、質問が多すぎるとロックアウトされ、質問するまで 3 ~ 4 時間待たなければなりません。もう質問しても構いません。 そのため、仕事用のチャットボットが欲しいが、何も支払いたくない人にはあまり適していません。
Claude 3 vs ChatGPT: データとプライバシー
Claude 3 と ChatGPT ではユーザーの扱いが異なります。 自分のプライバシーが心配な場合は、何が保存、保存、表示され、何が表示されないかを知ることが重要です。 ChatGPT はモデルをトレーニングするためにあなたのデータを使用する権利を留保しており、Claude も同様です。 OpenAIとAnthropicの両社は、セキュリティを最大限に高めるためにサーバーとユーザー間の接続をエンドツーエンドで暗号化していると述べている。
ただし、Claude ビジネス ユーザーおよびエンタープライズ ユーザーは、プロンプトと出力を受信または生成してから 28 日以内に自動的に削除されます。ただし、プロンプトと出力を長期間保持することが法的に義務付けられている場合、またはお客様が別途同意した場合は除きます。 消費者ユーザーのプロンプトは 90 日後に削除されますが、プロンプトの 1 つが潜在的に悪意がある、有害である、または安全でないとしてフラグが立てられた場合、そのプロンプトは最大 2 年間保持される可能性があります。
ChatGPT がデータに対して行う処理は少し異なります。 基本的に、チャットを保存して ChatGPT にシステム上に保持させたい場合は、チャットがモデルのトレーニングに使用される可能性があり、その意味で他の人間がアクセスできる可能性があることにも同意することになります。 チャット履歴をオフにすると、チャットを保存できなくなりますが、ChatGPT はそれをモデルのトレーニングに使用しなくなります。 ChatGPT API に保存されているビジネス データは、GPT LLM のトレーニングには使用されません。
職場でのチャットボットの使用
もちろん、企業が ChatGPT と Claude を仕事に使用できる方法はたくさんあります。実際、この記事ではそのかなりの数について言及しました。 ただし、仕事でチャットボットを定期的に使用している場合は、検討する価値のある考慮事項がいくつかあります。
たとえば、あなたの会社にはAI ツールを使用するための一連のガイドラインがありますか? 不明な場合は、マネージャーまたは部門長に確認してください。 まだ気づいていないかもしれませんが、あなたの会社では、サードパーティ ツール、さらに具体的には AI ツールに入力できるデータの種類について厳格な規則を設けている可能性があります。
第二に、特にラインマネージャーに対して、AI の使用についてオープンかつ透明性を持たせる必要があります。 AI チャットボットを使用して完了するのが適切なタスクについての議論は現在進行中ですが、会社の他の人々は、あなたにとって許容できるタスクについて異なる考えを持っている可能性があります。 さらに、ほとんどのマネージャーやビジネス リーダーは、AI ツールを使用する前に許可を得る必要があると考えています。
AI ツールを使用しているタスクが何であれ、新しい従業員が完了したかのように作業をチェックすることを忘れないでください。 AI ツールはほとんどの場合、恐ろしいほど迅速で驚くほど正確ですが、もちろん幻覚を起こしたり、誤った情報を提供したりする可能性があります。 だから、あまり夢中にならないでください!