Usé el uso del navegador rival del operador de OpenAI y es impresionante, pero requiere cierta habilidad técnica para usar
Publicado: 2025-02-01Operai mostró su primer agente de IA, operador, la semana pasada, pero ya tiene un competidor desaliñado que ofrece una herramienta de IA llamada Use del navegador que puede completar tareas en línea para usted. Este agente de uso de la computadora (CUA) puede escribir, buscar, hacer clic, hacer clic y copiar información de los sitios web sin que necesite tocar el mouse o el teclado y sin la suscripción ChatGPT Pro de $ 200 a mes.
El uso del navegador es realmente gratuito, al menos si estás dispuesto y capaz de pasar un tiempo jugando con el código API. No soy muy alfabetizado en código, pero pensé ingenuamente que sabía lo suficiente de cómo funciona GitHub para usar la versión API. Horas de examinar la documentación, ajustar la configuración y ver ejemplos más tarde, decidí que esto necesitaría un nivel más profundo de conocimiento de codificación que el que tengo, y mucho menos la persona promedio que navega por la web.
Felizmente, para mí, el uso del navegador solo debutó una versión en la nube que emplea el modelo GPT-4O de OpenAI. Corta muchos de los grandes levantamientos técnicos y agiliza las cosas en un formato de chat más familiar sin ningún trabajo adicional. Tiene sus limitaciones y cuesta $ 30, pero después de mi inepto Mastion API, se sintió como una ganga. E incluso en esta forma (obviamente inacabada), aún necesita esforzarse en las indicaciones de ingeniería y negociar cómo funciona la IA. El aspecto más limitante es que solo puede emitir un mensaje antes de tener que comenzar una nueva interacción. A pesar del cuadro de texto, no puede responder a lo que hace la IA y refinar su solicitud.
Comprar Ai
Con todo configurado, usé el uso del navegador a través de algunas pruebas del mundo real. Primero fue una tarea de comparación de precios. Ingresé el aviso: "Navegue a Amazon, Best Buy y Walmart y busque 'MacBook Air M2'. Extraiga el nombre del producto, el precio y la disponibilidad de acciones de los primeros cinco resultados en cada sitio. Compare los precios e identifique los más bajos Uno.
Hizo bien el trabajo, aunque no encontró ningún descuento o cupones ocultos. Aún así, el hecho de que pudiera automatizar el seguimiento de precios en múltiples sitios fue bastante emocionante. Dicho esto, un problema continuo para cualquier agente como este se produce cuando un sitio web quiere verificar que es humano. El uso del navegador tiene un botón que le permite hacerse cargo cuando lo desee, pero también lo alertará cuando sea necesario. Puede probar su humanidad y luego golpear el currículum para dejar que la IA se haga cargo nuevamente.
Volar ai
Luego llegó una tarea de planificación de viajes con el aviso: "Busque un vuelo de ida y vuelta desde Nueva York a Londres el 15 de diciembre de 2025 en British Air. Seleccione la opción más barata y extraiga los detalles, incluidos el precio, la aerolínea y la hora de salida".
Uso del navegador entregado, levantando un vuelo de British Airways a $ 750, completo con la hora de salida y otros detalles relevantes. Esto podría ser increíblemente útil para las personas que reservan muchos viajes, especialmente si lo automatiza para verificar las caídas de precios regularmente.
Amigo de AI de buen tiempo
Finalmente, probé la predicción del clima y la planificación con el aviso: “Verifique el pronóstico del tiempo de 7 días para la ciudad de Nueva York en Weather.com y resumir las tendencias de temperatura, las posibilidades de lluvia y cualquier advertencia del clima severo y luego sugirir cómo vestirse para ello. . "
El clima es uno de los usos más populares para los asistentes de voz, por lo que quería ver cómo la IA manejaba una solicitud más compleja en esa línea. Lo hizo muy bien, no solo extrayendo la información del pronóstico, sino que sugiere qué días usar una capa ligera y qué días debo "aislar con una abrigo y una bufanda cálidos, ya que será fría con baja oportunidad de lluvia".
Viaje
La diferencia clave entre los dos es la accesibilidad. El uso del navegador es como una navaja suiza para los desarrolladores. Tiene la flexibilidad de hacer casi cualquier cosa dentro de un navegador, pero necesita saber cómo usar las herramientas. Puede cavar en el código, ajustarlo y moldearlo a sus necesidades exactas. Si falta una función, nada le impide agregarla. El uso del navegador, al ser de código abierto, también tiene una comunidad de desarrolladores activo que lo refina constantemente. Eso significa que si te encuentras con problemas, hay foros y discusiones de Github en las que probablemente puedas encontrar respuestas.
El operador de Openi, por otro lado, es como contratar a un mayordomo. Hace mucho por ti pero dentro de ciertas limitaciones. La fortaleza del operador es su integración con el ecosistema AI más amplio de OpenAI, lo que le da acceso a modelos patentados que pueden tomar decisiones más matizadas. Sin embargo, está encerrado en la estructura de precios de OpenAI y las limitadas opciones de personalización.
El uso del navegador no es perfecto. Incluso su versión en la nube exige cierta paciencia. Debe elaborar sus indicaciones con cuidado, prepararse para la solución de problemas y ocasionalmente comenzar de nuevo. La versión en la nube puede compensar algo de esto más adelante, pero por ahora, los límites de no poder editar o responder dentro de la conversación ponen límites difíciles en su naturaleza flexible.
Y la velocidad también puede ser frustrante. Mira un video de mi segunda prueba; Esto es cuatro veces la velocidad del proceso real.
En este momento, el uso del navegador es el más adecuado para las personas que disfrutan de los retoques, como desarrolladores, investigadores y geeks de automatización a los que no les importa ensuciarse las manos. Si está dispuesto a esforzarse, obtendrá una herramienta poderosa y flexible que cuesta mucho menos que su competencia.
Pero si prefiere no pasar su fin de semana luchando con archivos de configuración, el operador puede ser la opción más indulgente. De cualquier manera, la automatización web está lista para un auge.