J'ai utilisé l'utilisation du navigateur rival de l'opérateur OpenAI et c'est impressionnant, mais il faut une compétence technique à utiliser

Publié: 2025-02-01

OpenAI a montré son premier agent d'IA, l'opérateur, la semaine dernière, mais il a déjà un concurrent scrappy offrant un outil d'IA appelé Browser Use qui peut effectuer des tâches en ligne pour vous. Cet agent d'utilisation de l'ordinateur (CUA) peut écrire, rechercher, cliquer sur les boutons et copier des informations à partir de sites Web sans que vous ayez besoin de toucher la souris ou le clavier et sans l'abonnement ChatGpt Pro de 200 $ par mois.

L'utilisation du navigateur est en fait gratuite, du moins si vous voulez et capable de passer du temps à jouer avec le code API. Je ne suis pas très alphabétisé par le code, mais je pensais naïvement que j'en savais suffisamment comment GitHub fonctionne pour utiliser la version API. Des heures de passant par la documentation, les ajustements de réglages et les exemples de regards plus tard, j'ai décidé que cela nécessiterait un niveau plus profond de connaissances de codage que moi, sans parler de la personne moyenne parcourant le Web.

Heureusement, pour moi, Browser Use vient de débuter une version cloud qui utilise le propre modèle GPT-4O d'OpenAI. Il réduit une grande partie du levage technique lourd et rationalise les choses dans un format de chat plus familier sans aucun travail supplémentaire. Il a ses limites et coûte 30 $, mais après mon gâchis API inepte, cela ressemblait à une bonne affaire. Et même dans cette forme (toujours évidemment inachevée), vous devez toujours faire des efforts dans les invites d'ingénierie et négocier le fonctionnement de l'IA. L'aspect le plus limitant est que vous ne pouvez émettre qu'une seule invite avant de commencer une nouvelle interaction. Malgré la zone de texte, vous ne pouvez pas répondre à ce que fait l'IA et affiner votre demande.

Acheter l'IA

Le navigateur utilise l'IA

(Crédit d'image: captures d'écran de l'utilisation du navigateur)

Avec tout ce qui est configuré, j'ai mis l'utilisation du navigateur à travers quelques tests du monde réel. Le premier était une tâche de comparaison des prix. Je suis entré dans l'invite: "Accédez à Amazon, Best Buy et Walmart et recherchez" MacBook Air M2 ". Un. Si les réductions sont présentes, enregistrez-les.

Cela a bien fait le travail, bien qu'il n'ait trouvé aucune remise ou coupons cachés. Pourtant, le fait que je puisse automatiser le suivi des prix sur plusieurs sites était assez excitant. Cela dit, un problème continu pour tout agent comme celui-ci survient lorsqu'un site Web veut vérifier que vous êtes humain. L'utilisation du navigateur a un bouton qui vous permet de prendre le relais quand vous le souhaitez, mais il vous alertera également en cas de besoin. Vous pouvez prouver votre humanité, puis frapper le curriculum vitae pour laisser l'IA reprendre le dessus.

Le navigateur utilise l'IA

(Crédit d'image: captures d'écran de l'utilisation du navigateur)

Fly Ai

Le navigateur utilise l'IA

(Crédit d'image: captures d'écran de l'utilisation du navigateur)

Vint ensuite une tâche de planification des voyages avec l'invite: "Recherchez un vol aller-retour de New York à Londres le 15 décembre 2025 sur British Air. Sélectionnez l'option la moins chère et les détails d'extraction, y compris le prix, la compagnie aérienne et l'heure de départ."

Utilisation du navigateur livré, tirant un vol britannique Airways à 750 $, avec une heure de départ et d'autres détails pertinents. Cela pourrait être incroyablement utile pour les personnes qui réservent beaucoup de voyages, surtout si vous l'automatisez pour vérifier régulièrement les baisses de prix.

Beau temps AI ami

Le navigateur utilise l'IA

(Crédit d'image: captures d'écran de l'utilisation du navigateur)

Enfin, j'ai testé la prédiction et la planification météorologiques avec l'invite: «Vérifiez les prévisions météorologiques de 7 jours pour New York sur Weather.com et résume les tendances de la température, les chances de pluie et les avertissements météorologiques graves, puis suggérer comment s'habiller pour cela . "

Le temps est l'une des utilisations les plus populaires pour les assistants vocaux, donc je voulais voir comment l'IA a traité une demande plus complexe dans cette veine. Il a très bien réussi, non seulement extrait les informations des prévisions, mais suggérant quels jours pour porter un manteau léger et quels jours je devrais «isoler avec un manteau et une écharpe chauds, car il sera froid avec un faible risque de pluie».

Randonnée

La principale différence entre les deux est l'accessibilité. L'utilisation du navigateur est comme un couteau suisse pour les développeurs. Il a la flexibilité de faire presque n'importe quoi dans un navigateur, mais vous devez savoir comment utiliser les outils. Vous pouvez creuser dans le code, le modifier et le mouler à vos besoins exacts. Si une fonctionnalité est manquante, rien ne vous empêche de l'ajouter. L'utilisation du navigateur, étant open-source, a également une communauté de développeurs active l'affiner constamment. Cela signifie que si vous rencontrez des problèmes, il existe des forums et des discussions GitHub où vous pouvez probablement trouver des réponses.

L'opérateur d'Openai, en revanche, est comme l'embauche d'un majordome. Il fait beaucoup pour vous mais dans certaines contraintes. La force de l'opérateur est son intégration avec l'écosystème d'IA plus large d'OpenAI, ce qui lui donne accès à des modèles propriétaires qui peuvent prendre des décisions plus nuancées. Cependant, vous êtes enfermé dans la structure de tarification d'OpenAI et les options de personnalisation limitées.

L'utilisation du navigateur n'est pas parfaite. Même sa version cloud exige une certaine patience. Vous devez fabriquer soigneusement vos invites, vous préparer à dépanner et recommencer. La version cloud peut compenser une partie de cela plus tard, mais pour l'instant, les limites de ne pas pouvoir modifier ou répondre dans la conversation ont mis des limites difficiles à sa nature par ailleurs flexible.

Et la vitesse peut également être frustrant. Découvrez une vidéo de mon deuxième test; C'est quatre fois la vitesse du processus réel.

À l'heure actuelle, l'utilisation du navigateur est mieux adaptée aux personnes qui aiment le bricolage, comme les développeurs, les chercheurs et les geeks d'automatisation qui ne se soucient pas de se salir les mains. Si vous êtes prêt à faire l'effort, vous obtiendrez un outil puissant et flexible qui coûte beaucoup moins cher que ses concurrents.

Mais si vous préférez ne pas passer votre week-end à lutter avec des fichiers de configuration, l'opérateur peut être l'option la plus indulgente. Quoi qu'il en soit, l'automatisation Web est prête pour un boom.