Eu usei o uso do navegador rival OpenAI OpenAI e é impressionante, mas é necessário alguma habilidade técnica para usar
Publicados: 2025-02-01A OpenAI exibiu seu primeiro agente de IA, operador, na semana passada, mas já possui um concorrente que oferece uma ferramenta de IA chamada Browser Use que pode concluir tarefas on -line para você. Este agente de uso de computador (CUA) pode escrever, pesquisar, clicar em botões e copiar informações de sites sem que você precise tocar no mouse ou teclado e sem a assinatura Chatgpt Pro de US $ 200 por mês.
O uso do navegador é realmente gratuito, pelo menos se você estiver disposto e capaz de passar algum tempo brincando com o código da API. Não sou muito alfabetizado com código, mas pensei ingenuamente que sabia o suficiente de como o GitHub funciona para usar a versão da API. Horas de vasculhar a documentação, ajustar as configurações e assistir a exemplos mais tarde, decidi que isso precisaria de um nível mais profundo de conhecimento de codificação do que eu, muito menos a pessoa comum navegando na Web.
Felizmente, para mim, o uso do navegador apenas estreou uma versão em nuvem que emprega o próprio modelo GPT-4O da OpenAI. Ele reduz muito o levantamento técnico pesado e simplifica as coisas em um formato de bate -papo mais familiar sem nenhum trabalho extra. Ele tem suas limitações e custa US $ 30, mas depois da minha bagunça inepta da API, parecia uma pechincha. E mesmo nessa forma (ainda obviamente inacabada), você ainda precisa se esforçar para obter instruções de engenharia e negociar como a IA funciona. O aspecto mais limitante é que você pode emitir apenas um prompt antes de ter que iniciar uma nova interação. Apesar da caixa de texto, você não pode responder ao que a IA faz e refinar sua solicitação.
Comprando ai
Com tudo configurado, coloquei o uso do navegador através de alguns testes do mundo real. O primeiro foi uma tarefa de comparação de preços. Entrei no aviso: "Navegue para a Amazon, Best Buy e Walmart e procuro por 'MacBook Air M2'. Extraia o nome do produto, o preço e a disponibilidade de estoque dos cinco primeiros resultados em cada site. Compare os preços e identifique a menor Um. Se os descontos ou os cupons estiverem presentes.
Ele fez bem o trabalho, embora não encontrasse descontos ou cupons ocultos. Ainda assim, o fato de eu poder automatizar o rastreamento de preços em vários sites foi bastante emocionante. Dito isto, uma questão contínua para qualquer agente como esse ocorre quando um site deseja verificar se você é humano. O uso do navegador possui um botão que permite assumir o controle quando quiser, mas também o alertará quando houver uma necessidade. Você pode provar sua humanidade e depois pressionar currículo para deixar a IA assumir novamente.
Voar ai
Em seguida, veio uma tarefa de planejamento de viagens com o aviso: "Pesquise um voo de ida e volta de Nova York para Londres em 15 de dezembro de 2025 no ar britânico. Selecione a opção mais barata e extraia detalhes, incluindo preço, companhia aérea e tempo de partida".
O uso do navegador entregue, puxando um voo da British Airways a US $ 750, completo com horário de partida e outros detalhes relevantes. Isso pode ser incrivelmente útil para pessoas que reservam muitas viagens, especialmente se você automatizá -lo para verificar se há quedas de preços regularmente.
Bair tempo Ai amigo
Finalmente, testei previsão e planejamento climático com o aviso: “Verifique a previsão do tempo de 7 dias para a cidade de Nova York no Weather.com e resuma tendências de temperatura, chances de chuva e quaisquer avisos severos do tempo e depois sugiro como se vestir para . ”
O clima é um dos usos mais populares para os assistentes de voz, então eu queria ver como a IA lidou com uma solicitação mais complexa nesse sentido. Isso se saiu muito bem, não apenas extraindo as informações da previsão, mas sugerindo em quais dias usar um casaco leve e em que dias eu deveria "isolar com um casaco quente e um lenço, pois será frio com baixa chance de chuva".
Trip Power
A principal diferença entre os dois é a acessibilidade. O uso do navegador é como uma faca do exército suíço para os desenvolvedores. Ele tem a flexibilidade de fazer quase tudo dentro de um navegador, mas você precisa saber como usar as ferramentas. Você pode cavar o código, ajustá -lo e moldá -lo para suas necessidades exatas. Se um recurso estiver faltando, nada o impede de adicioná -lo. O uso do navegador, sendo de código aberto, também possui uma comunidade ativa de desenvolvedores constantemente refinando-a. Isso significa que, se você tiver problemas, existem fóruns e discussões no Github, onde você provavelmente poderá encontrar respostas.
O operador da Openai, por outro lado, é como contratar um mordomo. Faz muito para você, mas dentro de certas restrições. A força do operador é sua integração com o ecossistema de IA mais amplo da OpenAI, dando -lhe acesso a modelos proprietários que podem tomar decisões mais sutis. No entanto, você está bloqueado na estrutura de preços do OpenAI e opções limitadas de personalização.
O uso do navegador não é perfeito. Até sua versão em nuvem exige alguma paciência. Você precisa criar suas instruções com cuidado, preparar -se para solucionar problemas e ocasionalmente comece de novo. A versão em nuvem pode compensar parte disso mais tarde, mas, por enquanto, os limites de não poder editar ou responder dentro da conversa colocam limites duros em sua natureza flexível.
E a velocidade também pode ser frustrante. Confira um vídeo do meu segundo teste; Isso é quatro vezes a velocidade do processo real.
No momento, o uso do navegador é mais adequado para pessoas que gostam de mexer, como desenvolvedores, pesquisadores e geeks de automação que não se importam em sujar as mãos. Se você estiver disposto a se esforçar, obterá uma ferramenta poderosa e flexível que custa muito menos do que sua concorrência.
Mas se você preferir não gastar seu fim de semana lutando com arquivos de configuração, o operador pode ser a opção mais perdoadora. De qualquer forma, a automação da web está pronta para um boom.