Eu usei o uso do navegador rival OpenAI OpenAI e é impressionante, mas é necessário alguma habilidade técnica para usar

Publicados: 2025-02-01

A OpenAI exibiu seu primeiro agente de IA, operador, na semana passada, mas já possui um concorrente que oferece uma ferramenta de IA chamada Browser Use que pode concluir tarefas on -line para você. Este agente de uso de computador (CUA) pode escrever, pesquisar, clicar em botões e copiar informações de sites sem que você precise tocar no mouse ou teclado e sem a assinatura Chatgpt Pro de US $ 200 por mês.

O uso do navegador é realmente gratuito, pelo menos se você estiver disposto e capaz de passar algum tempo brincando com o código da API. Não sou muito alfabetizado com código, mas pensei ingenuamente que sabia o suficiente de como o GitHub funciona para usar a versão da API. Horas de vasculhar a documentação, ajustar as configurações e assistir a exemplos mais tarde, decidi que isso precisaria de um nível mais profundo de conhecimento de codificação do que eu, muito menos a pessoa comum navegando na Web.

Felizmente, para mim, o uso do navegador apenas estreou uma versão em nuvem que emprega o próprio modelo GPT-4O da OpenAI. Ele reduz muito o levantamento técnico pesado e simplifica as coisas em um formato de bate -papo mais familiar sem nenhum trabalho extra. Ele tem suas limitações e custa US $ 30, mas depois da minha bagunça inepta da API, parecia uma pechincha. E mesmo nessa forma (ainda obviamente inacabada), você ainda precisa se esforçar para obter instruções de engenharia e negociar como a IA funciona. O aspecto mais limitante é que você pode emitir apenas um prompt antes de ter que iniciar uma nova interação. Apesar da caixa de texto, você não pode responder ao que a IA faz e refinar sua solicitação.

Comprando ai

Navegador, use ai

(Crédito da imagem: capturas de tela do uso do navegador)

Com tudo configurado, coloquei o uso do navegador através de alguns testes do mundo real. O primeiro foi uma tarefa de comparação de preços. Entrei no aviso: "Navegue para a Amazon, Best Buy e Walmart e procuro por 'MacBook Air M2'. Extraia o nome do produto, o preço e a disponibilidade de estoque dos cinco primeiros resultados em cada site. Compare os preços e identifique a menor Um. Se os descontos ou os cupons estiverem presentes.

Ele fez bem o trabalho, embora não encontrasse descontos ou cupons ocultos. Ainda assim, o fato de eu poder automatizar o rastreamento de preços em vários sites foi bastante emocionante. Dito isto, uma questão contínua para qualquer agente como esse ocorre quando um site deseja verificar se você é humano. O uso do navegador possui um botão que permite assumir o controle quando quiser, mas também o alertará quando houver uma necessidade. Você pode provar sua humanidade e depois pressionar currículo para deixar a IA assumir novamente.

Navegador, use ai

(Crédito da imagem: capturas de tela do uso do navegador)

Voar ai

Navegador, use ai

(Crédito da imagem: capturas de tela do uso do navegador)

Em seguida, veio uma tarefa de planejamento de viagens com o aviso: "Pesquise um voo de ida e volta de Nova York para Londres em 15 de dezembro de 2025 no ar britânico. Selecione a opção mais barata e extraia detalhes, incluindo preço, companhia aérea e tempo de partida".

O uso do navegador entregue, puxando um voo da British Airways a US $ 750, completo com horário de partida e outros detalhes relevantes. Isso pode ser incrivelmente útil para pessoas que reservam muitas viagens, especialmente se você automatizá -lo para verificar se há quedas de preços regularmente.

Bair tempo Ai amigo

Navegador, use ai

(Crédito da imagem: capturas de tela do uso do navegador)

Finalmente, testei previsão e planejamento climático com o aviso: “Verifique a previsão do tempo de 7 dias para a cidade de Nova York no Weather.com e resuma tendências de temperatura, chances de chuva e quaisquer avisos severos do tempo e depois sugiro como se vestir para . ”

O clima é um dos usos mais populares para os assistentes de voz, então eu queria ver como a IA lidou com uma solicitação mais complexa nesse sentido. Isso se saiu muito bem, não apenas extraindo as informações da previsão, mas sugerindo em quais dias usar um casaco leve e em que dias eu deveria "isolar com um casaco quente e um lenço, pois será frio com baixa chance de chuva".

Trip Power

A principal diferença entre os dois é a acessibilidade. O uso do navegador é como uma faca do exército suíço para os desenvolvedores. Ele tem a flexibilidade de fazer quase tudo dentro de um navegador, mas você precisa saber como usar as ferramentas. Você pode cavar o código, ajustá -lo e moldá -lo para suas necessidades exatas. Se um recurso estiver faltando, nada o impede de adicioná -lo. O uso do navegador, sendo de código aberto, também possui uma comunidade ativa de desenvolvedores constantemente refinando-a. Isso significa que, se você tiver problemas, existem fóruns e discussões no Github, onde você provavelmente poderá encontrar respostas.

O operador da Openai, por outro lado, é como contratar um mordomo. Faz muito para você, mas dentro de certas restrições. A força do operador é sua integração com o ecossistema de IA mais amplo da OpenAI, dando -lhe acesso a modelos proprietários que podem tomar decisões mais sutis. No entanto, você está bloqueado na estrutura de preços do OpenAI e opções limitadas de personalização.

O uso do navegador não é perfeito. Até sua versão em nuvem exige alguma paciência. Você precisa criar suas instruções com cuidado, preparar -se para solucionar problemas e ocasionalmente comece de novo. A versão em nuvem pode compensar parte disso mais tarde, mas, por enquanto, os limites de não poder editar ou responder dentro da conversa colocam limites duros em sua natureza flexível.

E a velocidade também pode ser frustrante. Confira um vídeo do meu segundo teste; Isso é quatro vezes a velocidade do processo real.

No momento, o uso do navegador é mais adequado para pessoas que gostam de mexer, como desenvolvedores, pesquisadores e geeks de automação que não se importam em sujar as mãos. Se você estiver disposto a se esforçar, obterá uma ferramenta poderosa e flexível que custa muito menos do que sua concorrência.

Mas se você preferir não gastar seu fim de semana lutando com arquivos de configuração, o operador pode ser a opção mais perdoadora. De qualquer forma, a automação da web está pronta para um boom.