Prueba ChatGPT vs Claude 3: ¿Puede Anthropic vencer a la superestrella de OpenAI?
Publicado: 2024-03-10Desde que ChatGPT se presentó al mundo hace más de 18 meses, también se han implementado una variedad de otros chatbots. Algunas han resultado útiles, pero otras no tanto. Pero junto con Gemini (anteriormente Bard) , el chatbot que ha demostrado ser más que competitivo es Claude, creado por la startup de inteligencia artificial Anthropic.
Hemos organizado un enfrentamiento entre ChatGPT y Claude 3 para marcar el lanzamiento de Claude 3, una familia de modelos de lenguaje que incluye Claude 3 Haiku, Claude 3 Sonnet y Claude 3 Opus. Según Anthropic, respaldado por Google, Claude 3 funciona mejor que la familia de modelos de lenguaje GPT que impulsan ChatGPT en una serie de pruebas cognitivas de referencia. En nuestras pruebas, descubrimos que Claude es más elocuente que ChatGPT y sus respuestas suelen estar mejor escritas y son más fáciles de leer.
Pero, ¿cómo se comparan uno al lado del otro? Para averiguarlo, les hicimos a ChatGPT y Claude 3 una variedad de preguntas diferentes, que van desde consultas diseñadas para probar el enfoque del chatbot en cuestiones éticas hasta generar fórmulas de hojas de cálculo.
En esta guía:
- Claude 3 vs ChatGPT: ¿Cuál es la diferencia?
- Claude 3 vs ChatGPT: prueba cara a cara
- Claude 3 vs ChatGPT: interfaz de usuario y experiencia de usuario
- Claude 3 vs ChatGPT: datos y privacidad
- Usando Claude 3 y ChatGPT en el trabajo
Claude 3 vs ChatGPT: ¿Cuál es la diferencia?
Claude 3 es una nueva familia de modelos lingüísticos de Anthropic, que se utiliza para impulsar su chatbot Claude. Hay (casualmente) 3 modelos: Haiku, Sonnet y Opus. Actualmente, Claude Sonnet está impulsando la versión gratuita de Claude y es 2 veces más rápido en el procesamiento de información que Claude 2.1, dice Anthropic.
Claude Opus, por otro lado, impulsa la versión pro. Los resultados de referencia de Anthropic que se muestran a continuación muestran que Claude Opus supera a GPT-4, así como que Claude Sonnet se desempeña con mayor capacidad que GPT-3.5.
Cómo se compara Claude 3 con ChatGPT y Gemini en pruebas comparativas. Imagen: Antrópico
Desde su lanzamiento, ChatGPT ha sido impulsado por diferentes miembros de la familia de modelos de lenguaje GPT. Los usuarios gratuitos actualmente tienen acceso a GPT-3.5, mientras que GPT-4 impulsa ChatGPT Plus, que cuesta $20 por mes por una suscripción. Este es el mismo precio que Claude Pro. Aquí hay algunas diferencias clave entre el software:
chatbot | Compañía | ¿Versión gratuita? | Planes pagados desde | modelo de lenguaje | Iniciar sesión | Idiomas | |
---|---|---|---|---|---|---|---|
ChatGPT | claudio | ||||||
Abierto AI | antrópico | ||||||
$20/mes | $20/mes | ||||||
| Gratis: Claude Soneto | ||||||
Requiere cualquier dirección de correo electrónico. No hay lista de espera en este momento. | Requiere una dirección de correo electrónico para crear una cuenta Anthropic. | ||||||
Más de 95 idiomas | Inglés, japonés, español y francés. |
ChatGPT vs Claude 3: prueba cara a cara
Hemos enfrentado a ChatGPT y Claude, haciéndoles 13 preguntas muy diferentes diseñadas para evaluar aspectos como el razonamiento y el procesamiento del lenguaje natural, pero también qué tan buenos son para completar tareas útiles en el lugar de trabajo, como escanear documentos en busca de información y redactar correos electrónicos. .
Descubrí que Claude produjo una mejor respuesta en siete de las pruebas, mientras que ChatGPT triunfó en tres . Los cuatro restantes (incluida una de las pruebas de lluvia de ideas) terminaron empatados, lo que significa que Claude ganó este enfrentamiento . Aquí está la lista completa de preguntas que les hicimos a ambos chatbots:
- Razonamiento ético
- Crear descripciones de productos
- Lluvia de ideas (2 pruebas)
- Comprensión del lenguaje natural
- Texto resumido
- Asesoramiento personalizado
- Analizando texto
- Proporcionar información factual
- Escritura creativa
- Escribiendo poemas
- Acertijos y razonamiento
- Redactar un correo electrónico
- Crear fórmulas de hoja de cálculo
1. Razonamiento ético
En primer lugar, planteé un difícil dilema ético a ChatGPT y Claude. Elegí este dilema en particular porque la respuesta correcta (si la hay) no es necesariamente clara o directa:
Un hombre conduce un vehículo blindado hacia el centro de una ciudad, con la intención de causar el mayor daño posible. Tiene tres pasajeros como rehenes en la parte trasera del coche. El coche está tan bien blindado que sus ocupantes sobrevivirán a cualquier colisión. Sin embargo, tienes la oportunidad de hacer estallar el coche a distancia utilizando un lanzacohetes. ¿Deberías volar el auto, matando a todos los que están dentro, pero salvando a las víctimas inminentes del ataque del hombre?
La respuesta de Claude fue extremadamente sensible a las dificultades de la situación y proporcionó una respuesta realmente humana en general. Parece comprender la gravedad de la situación, y el chatbot casi sonó emocionado cuando habló de la situación. Esto lo hizo sentir muy convincente.
ChatGPT, por otro lado, establece claramente los diferentes puntos de vista y enfoques que podría adoptar ante la situación. Esboza muchas de las mismas consideraciones que Claude y hace referencia a las dificultades de la situación.
La respuesta de Claude fue mucho más clara, y tiendo a preferir que los chatbots den este estilo de respuesta de “visión general” a dilemas éticos difíciles porque estas respuestas son más útiles (y menos peligrosas) para los actores humanos que los juicios absolutos.
¿La mejor respuesta? claudio
2. Crear descripciones de productos
Si tiene una tienda en línea o simplemente vende muchos productos en línea, crear descripciones de productos únicas y atractivas para cada uno de ellos no es una tarea fácil. Entonces, les pedí a ChatGPT y Claude que escribieran una descripción del mismo producto: un reloj digital. Así es como le fue a Claude:
Terminé pidiéndole a Claude una descripción un poco más larga, ya que no lo había visto escribir tantas descripciones de productos como ChatGPT. Y al final, hizo un trabajo realmente bueno: la construcción de la oración es impresionante y el texto es realmente convincente.
En general, las descripciones de productos generadas por Claude son mejores que las de ChatGPT. Al igual que su razonamiento ético, suena mucho más humano. Si estuviera creando descripciones de productos en masa con estas dos herramientas, tendría que editar mucho menos las generadas con Claude.
¿La mejor respuesta? claudio
3. Lluvia de ideas
A continuación, establecí dos tareas de lluvia de ideas para Claude y ChatGPT: generar ideas para publicaciones de blog para dos blogs muy diferentes. El primero es para un blog ficticio de alta cocina, ya que quería ver qué tan útiles eran los dos chatbots para generar ideas interesantes.
Luego también pedí algunas ideas para un blog sobre salud mental para ver si acertaban con el “tono”, ya que se requiere un lenguaje más serio y sobrio para este tipo de contenido.
Publicaciones de blog sobre alta cocina
Una vez más, Claude gana en esta tarea. Proporciona títulos más completos y su explicación muestra que tiene una comprensión clara de por qué la audiencia puede querer leer las publicaciones del blog que sugiere. Esto sería útil para alguien que esté a punto de producir este contenido, ya que en realidad es útil comprender ese razonamiento y aplicarlo al escribir.
ChatGPT realmente no muestra que esté funcionando de la misma manera y, considerando todo, las ideas son más genéricas. Son mucho más vagos que los de Claude y parecen sugeridos por un humano con cierto conocimiento de estrategia y producción de contenidos, no por un chatbot de IA.
¿La mejor respuesta? claudio
Publicaciones de blog sobre salud mental
A continuación, quería ver si ambos chatbots podían ajustar su tono y el enfoque que adoptaban ante las sugerencias cuando se les pedía que generaran publicaciones de blog sobre un tema más delicado que requeriría más sinceridad que una guía gastronómica elegante. Aquí está el intento de Claude:
Todas estas son excelentes sugerencias y definitivamente dan el tono correcto: no hay nada fuera de lo común aquí. Sin embargo, como puede ver en la imagen a continuación, ChatGPT también nos brindó algunas ideas apropiadas y brindó un nivel similar de instrucción adicional en lo que respecta al contenido. ¡Realmente no hay forma de separarlos aquí!
¿La mejor respuesta? Atar
4. Comprensión del lenguaje natural
A continuación, quería ver si una pregunta matemática conocida que juega con nuestras intuiciones sobre las matemáticas haría tropezar a ChatGPT o a Claude.
Matt tiene una manzana y un plátano que cuestan $3.10 juntos. La manzana cuesta $3,00 más que el plátano. ¿Cuánto cuesta el plátano?
Si bien inicialmente puede pensar que la respuesta es 10 centavos, en realidad son solo cinco centavos. Claude era demasiado inteligente para dejarse engañar y explicó exactamente cómo llegó a la respuesta correcta:
Sin querer avergonzarse, ChatGPT también escupió la respuesta correcta, lo que significa que realmente no hay nada que separe a los dos pesos pesados en esta ronda.
¿La mejor respuesta? Atar
5. Texto resumido
Tanto ChatGPT como Claude son muy capaces de resumir grandes cantidades de texto, destacando los puntos clave para que sus usuarios no tengan que leerlo todo. Para esta prueba, les pedí que resumieran un artículo reciente de The Guardian sobre el último discurso sobre el Estado de la Unión del presidente Joe Biden.
Claude hizo un muy buen trabajo al mantener sus resúmenes breves y concisos:
Los ChatGPT también son más que satisfactorios, pero si vamos a dividirlos, tendré que decir que prefiero los de Claude. No intenta sobrecargarlo con demasiada información (lo cual es importante, considerando que solicitamos un resumen) y, una vez más, simplemente está mejor escrito.
¿La mejor respuesta? claudio
6. Asesoramiento personalizado
Para esta prueba, quería ver cómo reaccionaban ChatGPT y Claude si se les pedía que dieran un consejo personal a alguien afectado por una mala salud mental. Es vital que herramientas como esta puedan responder de manera productiva y apropiada a estas solicitudes, especialmente a medida que se integran más en nuestras vidas. Aquí está la respuesta de Claude:
Estas son quizás las respuestas más similares proporcionadas por estos dos chatbots de las 13 pruebas que realizamos. Para ser honesto, es difícil criticar estas respuestas, que comienzan con validar los sentimientos de los usuarios antes de pasar a las acciones que pueden tomar.
Ambos chatbots sugirieron tomar medidas muy similares, y el mismo tipo de medidas que cualquier persona bien intencionada sugeriría a un amigo que lucha con los problemas especificados en el mensaje.
¿La mejor respuesta? Atar
7. Analizar texto
Esta es una prueba muy básica para ver qué tan bueno es un chatbot escaneando texto. Para esta prueba, tomé un extracto de un artículo de Harvard Business Review e inserté la palabra "pelota de playa" cinco veces. También agregué algunas variantes cercanas (pelotas de playa” y “pelotas para la playa”) para ver si alguno de los chatbot se confundía.
No es la primera vez que Claude acierta, escanea el texto y cuenta correctamente el número de veces que utilicé la palabra pelota de playa. A diferencia de ChatGPT, si pegas demasiado texto en Claude, lo enviará como una especie de "documento", como se ve en la siguiente imagen:
Lamentablemente, ChatGPT se equivocó en la respuesta: solo pudo identificar dos instancias de la palabra, menos de la mitad del número total. ChatGPT parece tener dificultades específicamente con este género de tareas. Recientemente lo comparé con Gemini e incluí una tarea similar, y tampoco pudo identificar la cantidad de veces que apareció una determinada palabra en un bloque de texto esa vez.
¿La mejor respuesta? claudio
8. Proporcionar información objetiva
Para esta tarea, quería ver qué tan buenos eran ChatGPT y Claude al brindar una respuesta a una pregunta que no es necesariamente clara pero que aún está basada en hechos. Entonces, les pedí a ambos que explicaran cómo y por qué se extinguieron los dinosaurios, algo para lo cual existen varias explicaciones y factores históricos y científicos.
En primer lugar, Claude ofrece una muy buena visión general de las teorías y verdades generalmente aceptadas sobre la extinción de los dinosaurios.
Claude nuevamente proporciona una explicación increíblemente articulada, que incluye prácticamente toda la misma información que ChatGPT: simplemente la expone y habla de ella de una mejor manera. También hace referencia al hecho de que los dinosaurios no se extinguieron todos a la vez, un punto importante que ChatGPT no incluyó.
¿La mejor respuesta? claudio
9. Escritura creativa
¿Quién escribe las mejores historias, ChatGPT o Claude? Les pedimos a ambos una historia breve de 300 palabras. Claude sube primero:
Curiosamente, Claude me proporcionó una historia corta de 301 palabras, una palabra más que el número de palabras especificado. ChatGPT, por otro lado, se ciñó más al informe y, en mi opinión, escribió una historia un poco mejor.
Tengo que darle esto a ChatGPT, simplemente porque Claude no solo ignoró mis instrucciones, ¡sino que me lo restregó en la cara antes de comenzar la historia! Bromas aparte, es extraño que haya decidido sobrepasar el recuento de palabras claramente especificado por un margen tan pequeño, y además de forma tan deliberada.
¿La mejor respuesta? ChatGPT
10. Escribir poemas
ChatGPT y Claude utilizaron estructuras similares para los poemas que les pedimos que generaran, y eso hace que sea muy difícil separarlos una vez más. Claude optó por versos de cuatro versos con coplas que riman:
Y ChatGPT efectivamente hizo lo mismo. Ambos también se mantuvieron muy atentos a la información que les proporcioné en la indicación, por lo que las historias que cuentan los poemas también son muy similares. La gran velocidad con la que estos dos chatbots pueden producir poesía convincente es algo extraordinario.
A pesar de las similitudes, después de haber leído ambos un par de veces, le daré esta a Claude: la estructura es un poco más compleja en un par de áreas, y hay florituras y frases más agradables.
¿La mejor respuesta? claudio
11. Acertijos y razonamiento
Para esta tarea, les pedimos a los dos chatbots que resolvieran un acertijo. Claude fue el primero en levantarse y acertó con su respuesta, explicando claramente por qué la criada es la culpable.
ChatGPT también entendió correctamente el acertijo, por lo que realmente no hay nada que los separe en este sentido.
¿La mejor respuesta? Atar
12. Redactar un correo electrónico
Aquí, les pedí a ChatGPT y Claude que redactaran un correo electrónico para mi jefe explicando por qué se me debería permitir hacer la transición al trabajo completamente remoto. Claude escribió un correo electrónico perfectamente útil, como puede ver a continuación:
Sin embargo, ChatGPT suena más profesional y tendrías que editar mucho menos antes de enviárselo a tu jefe. Claude profundiza en el estrés que supuestamente me ha causado el viaje diario y, si bien vale la pena mencionarlo, la introducción de ChatGPT es mucho más diplomática.
Teniendo en cuenta lo cerca que está la respuesta de ChatGPT del artículo terminado, tengo que coronarlo como el ganador de este.
¿La mejor respuesta? ChatGPT
13. Crear fórmulas de hoja de cálculo
Para esta prueba final, les pedí a ChatGPT y Claude que me generaran una fórmula de hoja de cálculo. Esta es la solicitud que envié:
La columna B contiene un conjunto de valores. Quiero hacer coincidirlos con los valores correspondientes de la columna E en la hoja 'Filtrar hacia abajo' y tomar los valores coincidentes de las columnas F, G y H en el filtro hasta la hoja actual usando una fórmula.
Así es como le fue a Claude:
"Claude ha tratado de crear una fórmula simple y multipropósito que utiliza el lugar donde se coloca en la hoja para determinar qué hacer, lo cual es genial, pero probablemente no funcione tan rápido y, para ser honesto, probablemente se estropee". Dice Matthew Bentley, genio residente de las hojas de cálculo de Tech.co.
"No hay necesidad de complicar demasiado las solicitudes simples", continuó. “Creo que ChatGPT para este es mejor. Es una solicitud de Vlookup bastante simple y no requiere toda esa fórmula adicional proporcionada por Claude”.
¿La mejor respuesta? ChatGPT
Claude 3 vs ChatGPT: interfaz de usuario y experiencia de usuario
Por supuesto, ChatGPT y Claude son bastante fáciles de usar y sus interfaces son muy similares en términos de formato y estructura. Lo mismo puede decirse de Gemini, Perplexity AI y Copilot . La mayoría de estos chatbots brindan una experiencia de usuario sencilla y fluida.
Sin embargo, me gustan los tonos calmantes que Anthropic eligió para Claude, ya que coincide con la actitud del chatbot, que quizás sea un poco más mesurado que algunos de sus rivales. ChatGPT, por otro lado, a veces puede parecer un poco clínico con su combinación de colores grisáceos. En general, el diseño de Anthropic es un poco más agradable que el de ChatGPT.
Al igual que Gemini, Claude generalmente hace un mejor trabajo al formatear sus respuestas, algo en lo que ChatGPT no es tan bueno (obtenga más información en nuestro enfrentamiento entre Gemini y ChatGPT ). Aunque he visto a ChatGPT usar encabezados para dividir el texto la mayoría de las veces, me gustó cómo Claude formatea sus respuestas. Otra gran cosa que ofrece Claude es un estilo de fuente diferente que es más fácil de leer para las personas disléxicas.
Sin embargo, ChatGPT es completamente gratuito y no tiene límite en la cantidad de preguntas que puedes hacer ; la versión gratuita de Claude, por otro lado, te bloqueará si haces demasiadas preguntas y te obligará a esperar de 3 a 4 horas antes. puedes preguntar más. Esto lo hace menos adecuado para personas que quieren un chatbot para trabajar, pero no quieren pagar nada.
Claude 3 vs ChatGPT: datos y privacidad
Claude 3 y ChatGPT tratan a sus usuarios de manera diferente. Si le preocupa su privacidad, es importante saber qué guardan, almacenan y ven, y qué no. ChatGPT se reserva el derecho de utilizar sus datos para entrenar sus modelos y Claude hace lo mismo. Tanto OpenAI como Anthropic dicen que cifran la conexión entre sus servidores y los usuarios de un extremo a otro para máxima seguridad.
Sin embargo, los mensajes y resultados de los usuarios comerciales y empresariales de Claude se eliminarán automáticamente dentro de los 28 días posteriores a su recepción o generación, excepto cuando estén legalmente obligados a conservarlos por un período de tiempo más largo o usted acepte lo contrario. Los mensajes de los usuarios consumidores se eliminarán después de 90 días, pero si uno de sus mensajes se marca como potencialmente malicioso, dañino o inseguro, podría conservarse por hasta dos años.
Lo que ChatGPT hace con tus datos es ligeramente diferente. Esencialmente, si desea guardar sus chats y hacer que ChatGPT los mantenga en el sistema, también acepta que pueden usarse para entrenar el modelo y, en ese sentido, otros humanos pueden acceder a ellos. Si desactiva el historial de chat, no podrá guardar ninguno de sus chats, pero ChatGPT no lo usará para entrenar sus modelos. Los datos comerciales almacenados en la API de ChatGPT no se utilizan para capacitar a los LLM de GPT.
Usar chatbots en el trabajo
Por supuesto, hay muchas formas en que las empresas pueden usar ChatGPT y Claude para trabajar; de hecho, mencionamos algunas de ellas en este artículo. Pero si utiliza chatbots con regularidad en el trabajo, hay algunas consideraciones que vale la pena revisar.
Por ejemplo, ¿tiene su empresa un conjunto de directrices para el uso de herramientas de IA ? Si no está seguro, debe aclararlo con su gerente o con el jefe de su departamento. Puede que aún no lo sepas, pero es posible que tu empresa tenga reglas estrictas sobre los tipos de datos que puedes ingresar en herramientas de terceros, y tal vez incluso en herramientas de inteligencia artificial más específicamente.
En segundo lugar, debe ser abierto y transparente sobre su uso de la IA, especialmente con su superior inmediato. El debate sobre qué tareas es apropiado completar con chatbots de IA está en curso, y otras personas de su empresa pueden tener una idea diferente de lo que es aceptable para usted. Además, la mayoría de los gerentes y líderes empresariales piensan que se debe pedir permiso antes de utilizar herramientas de inteligencia artificial.
Cualquiera que sea la tarea para la que esté utilizando herramientas de inteligencia artificial, recuerde revisar su trabajo como si lo hubiera completado un nuevo empleado. Si bien son terriblemente rápidas y sorprendentemente precisas la mayor parte del tiempo, las herramientas de inteligencia artificial pueden, por supuesto, alucinar y proporcionar información incorrecta. Así que ¡no te dejes llevar demasiado!