Użyłem użycia rywala operatora operatora operatora i jest imponujące, ale wymaga umiejętności technicznych w celu użycia

Opublikowany: 2025-02-01

Openai pokazał swój pierwszy agent AI, operator, w zeszłym tygodniu, ale ma już scappy konkurent oferujący narzędzie AI o nazwie Browser, który może wykonać dla Ciebie zadania online. Ten agent użytkownika komputerowego (CUA) może pisać, wyszukiwać, kliknąć przyciski i kopiować informacje ze stron internetowych bez konieczności dotknięcia myszy lub klawiatury i bez subskrypcji Chatgpt Pro Chatgpt Pro o wartości 200 USD miesięcznie.

Korzystanie z przeglądarki jest w rzeczywistości bezpłatne, przynajmniej jeśli chcesz i możesz spędzić trochę czasu na zabawie kodem API. Nie jestem bardzo miarowany kodem, ale naiwnie myślałem, że wiedziałem wystarczająco dużo o tym, jak Github działa, aby korzystać z wersji API. Godziny przeszukiwania dokumentacji, ulepszania ustawień i oglądania przykładów później zdecydowałem, że będzie to potrzebne głębszego poziomu wiedzy kodowania niż ja, nie mówiąc już o przeciętnej osobie przeglądającej sieć.

Na szczęście korzystanie z przeglądarki właśnie zadebiutowało wersję w chmurze, która wykorzystuje własny model GPT-4O Openai. Wycina wiele ciężkich podnoszenia technicznego i usprawnia rzeczy w bardziej znany format czatu bez żadnej dodatkowej pracy. Ma swoje ograniczenia i kosztuje 30 USD, ale po moim nieudolnym bałaganie API wydawało się okazja. I nawet w tej (wciąż oczywiście niedokończonej) formie nadal musisz włożyć trochę wysiłku w podpowiedzi inżynieryjne i negocjować sposób funkcjonowania AI. Najbardziej ograniczającym aspektem jest to, że możesz wydać tylko jeden monit przed rozpoczęciem nowej interakcji. Pomimo pola tekstowego nie możesz odpowiedzieć na to, co robi AI i udoskonalić swoją prośbę.

Kupowanie sztucznej inteligencji

Przeglądarka używa sztucznej inteligencji

(Kredyt obrazu: zrzuty ekranu z użycia przeglądarki)

Po skonfigurowaniu wszystkie przeglądarki wykorzystuję kilka testów w świecie rzeczywistym. Najpierw było zadaniem porównania cen. Wpisałem wiersz: „Przejdź do Amazon, Best Buy i Walmart i wyszukałem„ MacBook Air M2 ”. Wyodrębnij nazwę produktu, cenę i dostępność akcji z pierwszych pięciu wyników na każdej stronie. Porównaj ceny i zidentyfikuj najniższe Jeden.

Wykonało to zadanie, choć nie znalazło żadnych ukrytych rabatów ani kuponów. Mimo to fakt, że mogłem zautomatyzować śledzenie cen w wielu stronach, był dość ekscytujący. To powiedziawszy, ciągły problem dla każdego takiego agenta pojawia się, gdy strona internetowa chce sprawdzić, czy jesteś człowiekiem. Używanie przeglądarki ma przycisk, który pozwala przejąć kontrolę w dowolnym momencie, ale ostrzega cię również, gdy będzie potrzeba. Możesz udowodnić swoją ludzkość, a następnie osiągnąć CV, aby AI ponownie przejęło kontrolę.

Przeglądarka używa sztucznej inteligencji

(Kredyt obrazu: zrzuty ekranu z użycia przeglądarki)

Fly Ai

Przeglądarka używa sztucznej inteligencji

(Kredyt obrazu: zrzuty ekranu z użycia przeglądarki)

Następnie nastąpiło zadanie planowania podróży z monitem: „Szukaj lotu w obie strony z Nowego Jorku do Londynu 15 grudnia 2025 r. Na British Air. Wybierz najtańszą opcję i wyodrębnij szczegóły, w tym cenę, linię lotniczą i czas odlotu”.

Używanie przeglądarki dostarczone, wyciągając lot British Airways za 750 USD, wraz z czasem odlotu i innymi istotnymi szczegółami. Może to być niezwykle przydatne dla osób, które zarezerwują dużo podróży, zwłaszcza jeśli zautomatyzujesz go w celu regularnego sprawdzania spadków cen.

Rzeczowa pogoda Ai Friend

Przeglądarka używa sztucznej inteligencji

(Kredyt obrazu: zrzuty ekranu z użycia przeglądarki)

Wreszcie przetestowałem prognozę i planowanie pogody z podpowiedź: „Sprawdź 7-dniową prognozę pogody dla Nowego Jorku na Weather.com i podsumuj trendy temperaturowe, szanse na deszcz i wszelkie surowe ostrzeżenia o pogodzie, a następnie sugeruj, jak się do tego ubrać . ”

Pogoda jest jednym z najpopularniejszych zastosowań dla asystentów głosowych, więc chciałem zobaczyć, jak AI poradziła sobie z bardziej złożonym prośbą w tej żyli. Rzało to bardzo dobrze, nie tylko wyodrębniając informacje z prognozy, ale sugerując, które dni nosić lekki płaszcz i które dni powinienem „izolować ciepłym płaszczem i szalikiem, ponieważ będzie chłodno z niską szansą na deszcz”.

Wycieczka mocy

Kluczową różnicą między nimi jest dostępność. Używanie przeglądarki jest jak szwajcarski nóż armii dla deweloperów. Ma to elastyczność robienia prawie wszystkiego w przeglądarce, ale musisz wiedzieć, jak korzystać z narzędzi. Możesz zagłębić się w kod, poprawić go i ukształtować do swoich dokładnych potrzeb. Jeśli brakuje funkcji, nic nie powstrzymuje od jej dodania. Używanie przeglądarki, będąc open source, ma również aktywną społeczność programistów, nieustannie ją udoskonalała. Oznacza to, że jeśli napotkasz problemy, istnieją fora i dyskusje GitHub, w których prawdopodobnie możesz znaleźć odpowiedzi.

Z drugiej strony operator Openai jest jak zatrudnienie kamerdynera. Robi wiele dla ciebie, ale w ramach określonych ograniczeń. Siła operatora jest integracja z szerszym ekosystemem AI Openai, dając mu dostęp do zastrzeżonych modeli, które mogą podejmować bardziej dopracowane decyzje. Jednak jesteś zamknięty w strukturze cenowej Openai i ograniczonej opcji dostosowywania.

Używanie przeglądarki nie jest idealne. Nawet jego wersja w chmurze wymaga pewnej cierpliwości. Musisz ostrożnie stworzyć podpowiedzi, przygotować się na rozwiązywanie problemów i od czasu do czasu zacząć od nowa. Wersja w chmurze może zrekompensować niektóre z nich później, ale na razie granice niemożności edytowania lub reagowania w rozmowie stawiają twarde ograniczenia na jej elastycznym charakterze.

A prędkość może być również frustrująca. Sprawdź wideo z mojego drugiego testu; Jest to czterokrotnie niż prędkość faktycznego procesu.

W tej chwili korzystanie z przeglądarki najlepiej nadaje się dla osób, które lubią majsterkowania, takie jak programiści, badacze i maniaków automatyzacji, którzy nie mają nic przeciwko zabrudzeniu rąk. Jeśli chcesz włożyć wysiłek, otrzymasz potężne, elastyczne narzędzie, które kosztuje znacznie mniej niż jego konkurencja.

Ale jeśli wolisz nie spędzić weekendu zapaścone z plikami konfiguracyjnymi, operator może być bardziej wybaczającą opcją. Tak czy inaczej, automatyzacja sieci jest gotowa na boom.