Openaiオペレーターのライバルブラウザの使用を使用しましたが、印象的ですが、使用するには技術的なスキルが必要です
公開: 2025-02-01Openaiは先週、最初のAIエージェントであるオペレーターを披露しましたが、ブラウザ使用と呼ばれるAIツールを提供する粗末な競合他社がすでにオンラインでタスクを完了することができます。このコンピューター使用エージェント(CUA)は、マウスやキーボードに触れる必要がなく、200か月間のChatGPT Proサブスクリプションなしで、Webサイトから情報を書き、検索、クリックし、情報をコピーできます。
ブラウザの使用は実際には無料です。少なくとも、APIコードで遊ぶことに時間を費やすことができれば、喜んで時間を費やすことができます。私はそれほどコードリターンではありませんが、APIバージョンを使用するためにGithubがどのように機能するかを十分に知っているとは思いませんでした。ドキュメントの数時間、設定を調整し、例を見ると、後で例を見ると、これは私が持っているよりも深いレベルのコーディング知識が必要になると判断しました。
幸いなことに、私にとって、ブラウザの使用は、Openai独自のGPT-4Oモデルを採用するクラウドバージョンをデビューしました。それは多くの重い技術的なリフティングを切り取り、物事を追加の作業なしに、物事をより馴染みのあるチャット形式に合理化します。制限があり、費用は30ドルですが、私の不適切なAPIの混乱の後、それは掘り出し物のように感じました。そして、この(まだ明らかに未完成の)フォームでさえ、あなたはまだエンジニアリングプロンプトにある程度の努力を投入し、AIがどのように機能するかを交渉する必要があります。最も制限的な側面は、新しい相互作用を開始する前に1つのプロンプトを発行できることです。テキストボックスにもかかわらず、AIが行うことに応答してリクエストを改善することはできません。
AIを購入します
すべてがセットアップされた状態で、いくつかの実際のテストを通じてブラウザを使用します。最初は価格比較タスクでした。 「Amazon、Best Buy、Walmartに移動し、「MacBook Air M2」を検索します。各サイトの最初の5つの結果から製品名、価格、在庫の可用性を抽出します。価格を比較して最低を特定します。 1つは、割引またはクーポンが存在する場合は、最終的な概要を提供します。
隠された割引やクーポンは見つかりませんでしたが、それはうまくいきました。それでも、複数のサイトで価格追跡を自動化できるという事実は非常にエキサイティングでした。とはいえ、このようなエージェントの継続的な問題は、ウェブサイトがあなたが人間であることを確認したいときに起こります。ブラウザの使用には、いつでも好きなときに引き継ぐことができるボタンがありますが、必要なときに警告します。あなたはあなたの人間性を証明し、履歴書を打ってAIを再び引き継ぐことができます。
aiを飛ばします
次に、「2025年12月15日にブリティッシュエアでニューヨークからロンドンへの往復飛行を検索します。最も安いオプションを選択し、価格、航空会社、出発時間を含む詳細を抽出します。」
ブラウザの使用が配信され、出発時刻やその他の関連する詳細が完了したブリティッシュエアウェイズフライトを750ドルで引き上げました。これは、特に自動化して価格の下落を定期的にチェックする場合、多くの旅行を予約する人にとって非常に便利です。
晴天AIの友達
最後に、プロンプトで天候の予測と計画をテストしました。「New York Cityの7日間の天気予報をweather.comで確認し、温度の傾向、雨の可能性、厳しい気象警告を要約してから、服を着る方法を提案します。 。」
天気は音声アシスタントにとって最も人気のある用途の1つであるため、AIがその静脈でより複雑なリクエストをどのように処理したかを見たかったのです。予測から情報を抽出するだけでなく、どの日を軽いコートを着用する日と、「雨が降る可能性が低いので、暖かいコートとスカーフで隔離する日」を提案することを非常にうまくいきました。
パワートリップ
2つの主要な違いはアクセシビリティです。ブラウザの使用は、開発者向けのスイスアーミーナイフのようなものです。ブラウザ内でほとんどすべてを行う柔軟性がありますが、ツールの使用方法を知る必要があります。コードを掘り下げ、微調整して、正確なニーズに合わせて形作ることができます。機能が欠落している場合、追加することは何もありません。ブラウザの使用は、オープンソースであるため、絶えず洗練しているアクティブな開発者コミュニティもあります。つまり、問題に遭遇した場合、フォーラムとGitHubの議論があり、回答を見つける可能性があります。
一方、Openaiのオペレーターは、執事を雇うようなものです。それはあなたにとって多くのことをしますが、特定の制約の範囲内です。オペレーターの強みは、Openaiのより広いAIエコシステムとの統合であり、より微妙な決定を下すことができる独自モデルへのアクセスを提供することです。ただし、Openaiの価格設定構造と限定的なカスタマイズオプションにロックされています。
ブラウザの使用は完璧ではありません。クラウドバージョンでさえ、ある程度の忍耐を必要とします。プロンプトを慎重に作成し、トラブルシューティングのために自分自身を装着し、時には最初からやり直す必要があります。クラウドバージョンは後でこれの一部を補うかもしれませんが、今のところ、会話の中で編集または応答できないという制限は、柔軟な性質に厳しい制限を加えます。
速度もイライラする可能性があります。 2回目のテストのビデオをご覧ください。これは、実際のプロセスの速度の4倍です。
現在、ブラウザの使用は、手を汚すことを気にしない開発者、研究者、オートメーションオタクなど、いじくり回す人に最適です。あなたが努力を払うことをいとわないなら、あなたはその競争よりもはるかに少ないコストの強力で柔軟なツールを手に入れるでしょう。
ただし、週末に構成ファイルでレスリングをしたくない場合は、オペレーターがより寛容な選択肢になる場合があります。いずれにせよ、Webオートメーションはブームの準備ができています。