Ich habe den OpenAI -Bediener -Konkurrenten -Browser -Gebrauch verwendet und es ist beeindruckend, braucht jedoch einige technische Fähigkeiten, um sie zu verwenden

Veröffentlicht: 2025-02-01

OpenAI hat letzte Woche seinen ersten KI -Agenten, Betreiber, gezeigt, aber bereits einen schäbigen Konkurrenten, der ein KI -Tool namens Browser Use bietet, das Aufgaben online für Sie erledigen kann. Dieser Computer-Us-Agent (CUA) kann über Schaltflächen schreiben, suchen, klicken und Informationen von Websites kopieren, ohne dass Sie die Maus oder die Tastatur berühren müssen und ohne das Chatgpt-Pro-Abonnement von 200 US-Dollar pro Monat.

Die Verwendung von Browser ist tatsächlich kostenlos, zumindest wenn Sie bereit und in der Lage sind, einige Zeit mit API -Code zu spielen. Ich bin nicht sehr codemitiert, aber ich dachte naiv, ich wüsste genug darüber, wie Github die API-Version verwendet. Ich habe stundenlang entschieden, dass Dokumentation, Änderung der Einstellungen und Beispiele ein tieferes Maß an Codierungswissen erforderlich ist als ich, geschweige denn die durchschnittliche Person, die im Internet stöbert.

Glücklicherweise debütierte Browser für mich nur eine Cloud-Version, die das OpenAI-eigene GPT-4O-Modell verwendet. Es unterteilt viele schwere technische Heben und strömt die Dinge in ein vertrauteres Chat -Format ohne zusätzliche Arbeit. Es hat seine Grenzen und kostet 30 US -Dollar, aber nach meinem unfähigen API -Chaos fühlte es sich wie ein Schnäppchen an. Und selbst in dieser (noch offensichtlich unvollendeten) Form müssen Sie noch einige Anstrengungen in technische Aufforderungen angreifen und verhandeln, wie die KI funktioniert. Der einschränkendste Aspekt ist, dass Sie nur eine Eingabeaufforderung ausstellen können, bevor Sie eine neue Interaktion starten müssen. Trotz des Textfelds können Sie nicht darauf antworten, was die KI tut, und Ihre Anfrage verfeinern.

KI kaufen

Browser verwenden AI

(Bildnachweis: Screenshots aus der Verwendung von Browser)

Bei allem, was eingerichtet ist, habe ich den Browser-Einsatz durch ein paar reale Tests durchgesetzt. Zunächst war eine Preisvergleichsaufgabe. Ich habe die Eingabeaufforderung eingegeben: "Navigieren Sie zu Amazon, Best Buy und Walmart und suchen Einer.

Es hat den Job gut gemacht, obwohl es keine versteckten Rabatte oder Gutscheine gefunden hat. Trotzdem war die Tatsache, dass ich die Preisverfolgung auf mehreren Websites automatisieren konnte, ziemlich aufregend. Ein fortwährendes Problem für einen solchen Agenten kommt jedoch, wenn eine Website überprüfen möchte, dass Sie Menschen sind. Die Verwendung von Browser hat eine Taste, mit der Sie wann immer Sie möchten, aber Sie werden Sie auch aufmerksam machen, wenn Sie es nötigen. Sie können Ihre Menschlichkeit beweisen und dann den Lebenslauf treffen, damit die KI erneut übernehmen kann.

Browser verwenden AI

(Bildnachweis: Screenshots aus der Verwendung von Browser)

Fliegen ai

Browser verwenden AI

(Bildnachweis: Screenshots aus der Verwendung von Browser)

Als nächstes kam eine Reiseplanungsaufgabe mit der Eingabeaufforderung: "Suchen Sie nach einem Hin- und Rückflug von New York nach London am 15. Dezember 2025 in British Air.

Der Browser -Gebrauch geliefert und fährt einen Flug von British Airways für 750 US -Dollar mit Abflugzeit und anderen relevanten Details. Dies könnte für Menschen, die viel Reisen buchen, unglaublich nützlich sein, insbesondere wenn Sie es automatisieren, um regelmäßig nach Preisabfällen zu suchen.

Faires Wetter AI Freund

Browser verwenden AI

(Bildnachweis: Screenshots aus der Verwendung von Browser)

Schließlich habe ich die Wettervorhersage und -planung mit der Eingabeaufforderung getestet: „Überprüfen Sie die 7-tägige Wettervorhersage von New York City auf Weather.com und fassen Sie die Temperaturtrends, Regenchancen und alle Unwetterwarnungen zusammen und schlagen Sie dann vor, wie man sich dafür kleidet . ““

Das Wetter ist einer der beliebtesten Verwendungszwecke für Sprachassistenten. Daher wollte ich sehen, wie die KI in diesem Sinne eine komplexere Anfrage umging. Es war sehr gut, nicht nur die Informationen aus der Vorhersage zu extrahieren, sondern schlug vor, an welchen Tagen ich einen leichten Mantel tragen soll und an welchen Tagen ich „mit einem warmen Mantel und Schal isolieren sollte, da es mit geringer Regenfälle kühl sein wird“.

Kraftreise

Der Hauptunterschied zwischen den beiden ist die Zugänglichkeit. Die Verwendung von Browser ist wie ein Schweizer Armeemesser für Entwickler. Es hat die Flexibilität, in einem Browser fast alles zu tun, aber Sie müssen wissen, wie man die Werkzeuge benutzt. Sie können sich in den Code eintauchen, ihn optimieren und genau an Ihre Bedürfnisse formen. Wenn eine Funktion fehlt, hindert Sie nichts daran, sie hinzuzufügen. Die Verwendung von Browser, die Open-Source-Nutzung, hat auch eine aktive Entwicklergemeinschaft, die sie ständig verfeinert. Das heißt, wenn Sie auf Probleme stoßen, gibt es Foren und Github -Diskussionen, in denen Sie wahrscheinlich Antworten finden können.

OpenAs Betreiber hingegen ist wie die Einstellung eines Butlers. Es tut viel für Sie, aber innerhalb bestimmter Einschränkungen. Die Stärke des Bedieners ist die Integration in das breitere AI -Ökosystem von OpenAI und bietet ihm Zugang zu proprietären Modellen, die differenziertere Entscheidungen treffen können. Sie sind jedoch in die Preisstruktur von OpenAI und begrenzte Anpassungsoptionen eingeschlossen.

Die Verwendung von Browser ist nicht perfekt. Sogar seine Cloud -Version erfordert etwas Geduld. Sie müssen Ihre Eingabeaufforderungen sorgfältig erstellen, sich für die Fehlerbehebung vorbereiten und gelegentlich von vorne beginnen. Die Cloud -Version kann einige davon später ausgleichen, aber vorerst setzen die Grenzen, dass sie in der Gespräch nicht bearbeiten oder reagieren können, ihre ansonsten flexible Natur fest.

Und die Geschwindigkeit kann auch frustrierend sein. Schauen Sie sich ein Video meines zweiten Tests an. Dies ist die vierfache Geschwindigkeit des tatsächlichen Prozesses.

Derzeit eignet sich die Verwendung von Browser am besten für Menschen, die gerne basteln, wie Entwickler, Forscher und Automatisierungsfreaks, denen es nichts ausmacht, sich die Hände schmutzig zu machen. Wenn Sie bereit sind, sich zu bemühen, erhalten Sie ein leistungsstarkes, flexibles Tool, das viel weniger kostet als die Konkurrenz.

Wenn Sie jedoch Ihr Wochenend -Wrestling mit Konfigurationsdateien lieber nicht verbringen möchten, ist der Bediener möglicherweise die verzeihendere Option. In jedem Fall ist die Webautomation für einen Boom bereit.