Ho usato l'uso del browser rivale dell'operatore Openai ed è impressionante, ma richiede qualche abilità tecnica da usare
Pubblicato: 2025-02-01Openai ha mostrato il suo primo agente di intelligenza artificiale, l'operatore, la scorsa settimana, ma ha già un concorrente Scrappy che offre uno strumento di intelligenza artificiale chiamato Browser Use che può completare le attività online per te. Questo agente che usa il computer (CUA) può scrivere, cercare, fare clic su pulsanti e copiare informazioni dai siti Web senza che tu sia necessario toccare il mouse o la tastiera e senza l'abbonamento a Chatgpt Pro da $ 200-A-mese.
L'uso del browser è in realtà gratuito, almeno se sei disposto e in grado di passare un po 'di tempo a giocare con il codice API. Non sono molto letterato in codice, ma ho pensato ingenuamente di sapere abbastanza come funziona GitHub per usare la versione API. Ore di setacciamento attraverso la documentazione, modificare le impostazioni e guardare esempi in seguito, ho deciso che ciò avrebbe bisogno di un livello più profondo di conoscenze di codifica rispetto a me, per non parlare della persona media che naviga sul Web.
Fortunatamente, per me, l'uso del browser ha appena debuttato una versione cloud che impiega il modello GPT-4O di Openai. Taglia molti dei pesanti sollevamento tecnico e semplifica le cose in un formato di chat più familiare senza alcun lavoro extra. Ha i suoi limiti e costa $ 30, ma dopo il mio inetto pasticcio API, sembrava un affare. E anche in questa forma (ancora ovviamente incompiuta), devi ancora fare qualche sforzo nelle prompt ingegneristiche e negoziando come funziona l'IA. L'aspetto più limitante è che puoi emettere un solo prompt prima di dover avviare una nuova interazione. Nonostante la casella di testo, non puoi rispondere a ciò che fa l'intelligenza artificiale e perfezionare la tua richiesta.
Acquistare AI
Con tutto impostato, ho utilizzato il browser attraverso alcuni test del mondo reale. Il primo era un compito di confronto dei prezzi. Ho inserito il prompt: "Passa a Amazon, Best Buy e Walmart e cerco" MacBook Air M2 ". Estrai il nome del prodotto, il prezzo e la disponibilità delle azioni dai primi cinque risultati su ciascun sito. Confronta i prezzi e identifica i più bassi Uno. Se sono presenti sconti o coupon, registrali.
Ha fatto bene il lavoro, anche se non ha trovato sconti o coupon nascosti. Tuttavia, il fatto che potessi automatizzare il monitoraggio dei prezzi su più siti è stato piuttosto eccitante. Detto questo, un problema continuo per qualsiasi agente come questo arriva quando un sito Web vuole verificare che tu sia umano. L'uso del browser ha un pulsante che ti consente di prendere il sopravvento ogni volta che vuoi, ma ti avviserà anche quando c'è bisogno. Puoi dimostrare la tua umanità e poi colpire il curriculum per lasciare che l'IA riprenda.
Volare ai
Successivamente è arrivato un'attività di pianificazione dei viaggi con il prompt: "Cerca un volo di andata e ritorno da New York a Londra il 15 dicembre 2025 su British Air. Seleziona l'opzione più economica ed estratto i dettagli, tra cui prezzo, compagnia aerea e tempo di partenza".
L'uso del browser è stato consegnato, tirando su un volo britannico Airways a $ 750, completo di tempo di partenza e altri dettagli pertinenti. Questo potrebbe essere incredibilmente utile per le persone che prenotano molti viaggi, soprattutto se lo automatizzate per verificare regolarmente i prezzi.
Fair Weather Ai Friend
Infine, ho testato la previsione e la pianificazione meteorologica con il prompt: “Controlla le previsioni meteorologiche di 7 giorni per New York City su Weather.com e riassumi le tendenze della temperatura, le possibilità di pioggia e tutti gli avvertimenti meteorologici e poi suggerire come vestirsi . "
Il tempo è uno degli usi più popolari per gli assistenti vocali, quindi volevo vedere come l'IA ha gestito una richiesta più complessa in quella vena. Ha fatto molto bene, non solo estraendo le informazioni dalle previsioni, ma suggerendo quali giorni indossare un cappotto leggero e quali giorni dovrei "isolare con un cappotto e una sciarpa calda, poiché sarà freddo con una scarsa possibilità di pioggia".
Viaggio di potenza
La differenza chiave tra i due è l'accessibilità. L'uso del browser è come un coltello dell'esercito svizzero per gli sviluppatori. Ha la flessibilità di fare quasi tutto all'interno di un browser, ma è necessario sapere come utilizzare gli strumenti. Puoi scavare nel codice, modificarlo e modellare le tue esigenze esatte. Se manca una funzione, nulla ti impedisce di aggiungerla. L'uso del browser, essendo open-source, ha anche una comunità di sviluppatori attivi che lo perfeziona costantemente. Ciò significa che se ti imbatti in problemi, ci sono forum e discussioni su GitHub in cui è probabile che tu possa trovare risposte.
L'operatore di Openi, d'altra parte, è come assumere un maggiordomo. Fa molto per te ma all'interno di determinati vincoli. La forza dell'operatore è la sua integrazione con l'ecosistema AI più ampio di Openai, che gli dà accesso a modelli proprietari che possono prendere decisioni più sfumate. Tuttavia, sei bloccato nella struttura dei prezzi di Openi e nelle opzioni di personalizzazione limitate.
L'uso del browser non è perfetto. Anche la sua versione cloud richiede un po 'di pazienza. Devi creare attentamente i tuoi suggerimenti, prepararti per la risoluzione dei problemi e occasionalmente ricominciare. La versione cloud può compensare un po 'di questi successivi, ma per ora, i limiti di non essere in grado di modificare o rispondere all'interno della conversazione hanno dato limiti difficili alla sua natura altrimenti flessibile.
E anche la velocità può essere frustrante. Guarda un video del mio secondo test; Questa è quattro volte la velocità del processo effettivo.
In questo momento, l'uso del browser è più adatto per le persone che amano armeggiare, come sviluppatori, ricercatori e geek di automazione a cui non dispiace sporcarti le mani. Se sei disposto a fare lo sforzo, otterrai uno strumento potente e flessibile che costa meno della sua concorrenza.
Ma se preferisci non trascorrere il weekend di wrestling con i file di configurazione, l'operatore potrebbe essere l'opzione più perdonare. Ad ogni modo, l'automazione web è pronta per un boom.