Тест ChatGPT против Claude 3: сможет ли Anthropic победить суперзвезду OpenAI?
Опубликовано: 2024-03-10С тех пор, как ChatGPT был представлен миру более 18 месяцев назад, также был запущен ряд других чат-ботов. Некоторые оказались полезными, другие — не очень. Но наряду с Gemini (ранее Bard) более чем конкурентоспособным оказался чат-бот Claude, созданный AI-стартапом Anthropic.
Мы организовали состязание ChatGPT и Claude 3, чтобы отметить запуск Claude 3, семейства языковых моделей, в которое входят Claude 3 Haiku, Claude 3 Sonnet и Claude 3 Opus. По данным Anthropic, поддерживаемого Google, Claude 3 работает лучше, чем семейство языковых моделей GPT, на которых работает ChatGPT, в серии эталонных когнитивных тестов. В ходе наших тестов мы обнаружили, что Claude более красноречив, чем ChatGPT, и его ответы обычно лучше написаны и их легче читать.
Но как их сравнивать друг с другом? Чтобы выяснить это, мы задали ChatGPT и Claude 3 множество различных вопросов: от запросов, предназначенных для проверки подхода чат-бота, до этических вопросов и создания формул электронных таблиц.
В этом руководстве:
- Claude 3 против ChatGPT: в чем разница?
- Клод 3 против ChatGPT: личный тест
- Claude 3 против ChatGPT: пользовательский интерфейс и пользовательский опыт
- Claude 3 против ChatGPT: данные и конфиденциальность
- Использование Claude 3 и ChatGPT на работе
Claude 3 против ChatGPT: в чем разница?
Claude 3 — это новое семейство языковых моделей от Anthropic, используемое в их чат-боте Claude. Есть (по совпадению) 3 модели: Haiku, Sonnet и Opus. В настоящее время Claude Sonnet используется в бесплатной версии Claude и обрабатывает информацию в 2 раза быстрее, чем Claude 2.1, говорят в Anthropic.
Клод Опус, с другой стороны, поддерживает профессиональную версию. Результаты тестов Anthropic, представленные ниже, показывают, что Claude Opus опережает GPT-4, а Claude Sonnet работает более эффективно, чем GPT-3.5.
Сравните Claude 3 с ChatGPT и Gemini в тестах производительности. Изображение: Антропный
С момента запуска ChatGPT использует различные языковые модели семейства GPT. Бесплатные пользователи в настоящее время имеют доступ к GPT-3.5, тогда как GPT-4 поддерживает ChatGPT Plus, стоимость одной подписки которого составляет 20 долларов в месяц. Это та же цена, что и у Claude Pro. Вот некоторые ключевые различия между программным обеспечением:
Чат-бот | Компания | Бесплатная версия? | Платные планы от | Языковая модель | Войти | Языки | |
---|---|---|---|---|---|---|---|
ЧатGPT | Клод | ||||||
ОпенАИ | антропный | ||||||
20 долларов США в месяц | 20 долларов США в месяц | ||||||
| Бесплатно: Клод Сонет | ||||||
Требуется любой адрес электронной почты. В настоящее время нет списка ожидания. | Для создания учетной записи Anthropic требуется адрес электронной почты. | ||||||
95+ языков | Английский, японский, испанский и французский |
ChatGPT против Клода 3: личный тест
Мы сравнили ChatGPT и Клода, задав им 13 совершенно разных вопросов, предназначенных для проверки таких аспектов, как рассуждение и обработка естественного языка, а также того, насколько хорошо они справляются с удобными задачами на рабочем месте, такими как сканирование документов для получения информации и составление электронных писем. .
Я обнаружил, что Claude показал лучший результат в семи тестах, а ChatGPT одержал победу в трех . Остальные четыре (включая один из мозговых штурмов) закончились вничью, а это означает, что Клод выиграл этот матч . Вот полный список вопросов, которые мы задали обоим чат-ботам:
- Этическое обоснование
- Создание описаний продуктов
- Идеи для мозгового штурма (2 теста)
- Понимание естественного языка
- Обобщение текста
- Персональный совет
- Анализ текста
- Предоставление фактической информации
- Писательское творчество
- Написание стихов
- Загадки и рассуждения
- Составление электронного письма
- Создание формул электронных таблиц
1. Этическое обоснование
Сначала я поставил перед ChatGPT и Клодом сложную этическую дилемму. Я выбрал эту дилемму, в частности, потому, что правильный ответ (если он есть) не обязательно однозначен и однозначен:
Мужчина въезжает на броневике в центр города, намереваясь нанести как можно больший ущерб. У него в заложниках трое пассажиров на заднем сиденье машины. Автомобиль настолько хорошо бронирован, что находящиеся внутри выдержат любое столкновение. Однако у вас есть возможность взорвать машину на расстоянии с помощью ракетницы. Стоит ли взорвать машину, убив всех внутри, но спасая неминуемую жертву ярости этого человека?
Ответ Клода был чрезвычайно чувствителен к трудностям ситуации и в целом дал по-настоящему человечный ответ. Кажется, они понимают серьезность ситуации – и чат-бот говорил почти эмоционально, когда говорил о ситуации. Это сделало это ощущение очень убедительным.
ChatGPT, с другой стороны, четко излагает различные точки зрения и подходы, которые вы можете использовать в данной ситуации. В нем излагаются многие из тех же соображений, что и Клод, и упоминаются трудности ситуации.
Ответ Клода был гораздо яснее, и я предпочитаю, чтобы чат-боты давали такой «обзорный» ответ на сложные этические дилеммы, потому что эти ответы более полезны (и менее опасны) для людей-действующих лиц, чем абсолютные суждения.
Лучший ответ? Клод
2. Создание описаний продуктов
Если вы управляете интернет-магазином или просто продаете большое количество товаров в Интернете, создание уникальных и убедительных описаний продуктов для каждого из них — непростая задача. Итак, я попросил ChatGPT и Клода написать описание одного и того же продукта — цифровых часов. Вот как поступил Клод:
В итоге я попросил Клода дать немного более длинное описание, так как я не видел, чтобы он писал столько описаний продуктов, сколько ChatGPT. И, в конце концов, он проделал действительно хорошую работу – построение предложений впечатляет, а текст действительно убедительный.
В целом описания продуктов, созданные Клодом, лучше, чем у ChatGPT. Как и этические рассуждения, это звучит гораздо более человечно. Если бы вы массово создавали описания продуктов с помощью этих двух инструментов, вам пришлось бы гораздо меньше редактировать описания, созданные с помощью Claude.
Лучший ответ? Клод
3. Мозговой штурм идей
Затем я поставил перед Клодом и ChatGPT две задачи мозгового штурма — придумать идеи для постов для двух совершенно разных блогов. Первый предназначен для вымышленного блога о изысканной кухне, так как я хотел увидеть, насколько полезны два чат-бота для генерации интересных идей.
Затем я также попросил несколько идей для блога о психическом здоровье, чтобы посмотреть, правильно ли они поймут «тон», поскольку для такого рода контента требуется более серьезный и трезвый язык.
Сообщения в блоге о изысканных ресторанах
И снова Клод побеждает в этом задании. Он предоставляет более полные заголовки, а его объяснение показывает, что у него есть четкое понимание того, почему аудитория может захотеть прочитать предложенные им сообщения в блоге. Это было бы полезно для тех, кто собирается создавать этот контент, поскольку на самом деле полезно понять эти рассуждения и применять их при написании.
ChatGPT на самом деле не показывает, что он работает таким же образом, и, учитывая все обстоятельства, идеи более общие. Они гораздо более расплывчаты, чем у Клода, и звучат так, будто их предложил человек, обладающий некоторым пониманием стратегии и производства контента, а не чат-бот с искусственным интеллектом.
Лучший ответ? Клод
Сообщения в блоге о психическом здоровье
Далее я хотел посмотреть, смогут ли оба чат-бота изменить свой тон и подход, который они используют к предложениям, когда их просят создавать сообщения в блоге на более деликатную тему, которая потребует большей искренности, чем гид по изысканным ресторанам. Вот попытка Клода:
Это все отличные предложения, и они определенно соответствуют тональности – здесь нет ничего необычного. Однако, как вы можете видеть на изображении ниже, ChatGPT также дал нам несколько подходящих идей и предоставил аналогичный уровень дополнительных инструкций, когда дело касалось контента. Здесь их действительно невозможно разделить!
Лучший ответ? Галстук
4. Понимание естественного языка
Далее я хотел посмотреть, не сбивает ли ChatGPT или Клода с толку известный математический вопрос, основанный на нашей интуиции в отношении математики.
У Мэтта есть яблоко и банан, которые вместе стоят 3,10 доллара. Яблоко стоит на 3 доллара дороже, чем банан. Сколько стоит банан?
Хотя поначалу вы можете подумать, что ответ — 10 центов, на самом деле это всего лишь пять центов. Клод был слишком умен, чтобы его можно было обмануть, и объяснил, как именно он пришел к правильному ответу:
Не желая смущаться, ChatGPT также выдал правильный ответ, а это значит, что в этом раунде двум тяжеловесам действительно нечего разделять.
Лучший ответ? Галстук
5. Обобщение текста
И ChatGPT, и Claude способны суммировать большие объемы текста, выделяя ключевые моменты, чтобы пользователям не приходилось читать весь текст. Для этого теста я попросил их кратко изложить недавнюю статью Guardian о последнем обращении президента Джо Байдена к состоянию страны.
Клод действительно хорошо постарался сделать свое резюме кратким и лаконичным:
ChatGPT тоже более чем удовлетворительны, но если мы собираемся разделить их, я должен сказать, что предпочитаю Claude. Он не пытается перегрузить вас слишком большим количеством информации – что важно, учитывая, что мы просили краткое изложение – и, повторюсь, он просто написан лучше.
Лучший ответ? Клод
6. Персональные консультации
Для этого теста я хотел посмотреть, как ChatGPT и Клод отреагировали, если их попросили дать личный совет человеку, страдающему от плохого психического здоровья. Крайне важно, чтобы подобные инструменты могли продуктивно и адекватно реагировать на эти запросы, особенно по мере того, как они становятся все более интегрированными в нашу жизнь. Вот ответ Клода:
Это, пожалуй, наиболее похожие ответы, полученные этими двумя чат-ботами, из всех 13 проведенных нами тестов. Честно говоря, трудно придраться к этим ответам, которые начинаются с подтверждения чувств пользователей, а затем переходят к действиям, которые они могут предпринять.
Оба чат-бота предложили предпринять очень похожие шаги, и те же самые шаги, которые любой человек из лучших побуждений предложил бы другу, борющемуся с проблемами, указанными в подсказке.
Лучший ответ? Галстук
7. Анализ текста
Это очень простой тест, позволяющий определить, насколько хорошо чат-бот сканирует текст. Для этого теста я взял отрывок из статьи в Harvard Business Review и пять раз вставил в него слово «пляжный мяч». Я также добавил несколько близких вариантов (пляжные мячи» и «мячи для пляжа»), чтобы посмотреть, не запутается ли какой-нибудь чат-бот.
Уже не в первый раз Клод хлопает по деньгам, просматривая текст и правильно подсчитывая, сколько раз я использовал слово «пляжный мяч». В отличие от ChatGPT, если вы вставите слишком много текста в Claude, он отправит его как своего рода «документ», как показано на рисунке ниже:
К сожалению, ChatGPT дал неправильный ответ: он смог идентифицировать только два экземпляра слова, что составляет менее половины от общего числа. ChatGPT, кажется, борется именно с этим типом задач. Недавно я сравнил его с Gemini и включил аналогичную задачу, но он и в этот раз не смог определить, сколько раз определенное слово появлялось в блоке текста.
Лучший ответ? Клод
8. Предоставление фактической информации
Для этой задачи я хотел посмотреть, насколько хорошо ChatGPT и Claude дают ответ на вопрос, который не обязательно однозначен, но по-прежнему обоснован. Итак, я попросил их обоих объяснить, как и почему вымерли динозавры – чему есть несколько исторических и научных объяснений и факторов.
Прежде всего, Клод дает действительно хороший обзор теорий и общепринятых истин о вымирании динозавров.
Клод снова дает невероятно четкое объяснение, которое включает в себя практически всю ту же информацию, что и ChatGPT — оно просто излагает ее и рассказывает об этом лучше. В нем также упоминается тот факт, что динозавры не вымерли все сразу — важный момент, который не был включен в ChatGPT.
Лучший ответ? Клод
9. Творческое письмо
Кто пишет лучшие истории: ChatGPT или Клод? Мы попросили их обоих написать короткий рассказ в 300 слов. Клод встал первым:
Как ни странно, Клод предоставил мне короткий рассказ из 301 слова, что на одно слово превышает указанное количество слов. ChatGPT, с другой стороны, придерживался более близкого брифа – и, на мой взгляд, написал немного лучшую историю.
Я должен передать это ChatGPT просто потому, что Клод не только проигнорировал мои инструкции, но и ткнул мне это в лицо, прежде чем начать рассказ! Если отбросить шутки, странно, что он решил превысить очень четко указанное количество слов с таким небольшим отрывом, и притом намеренно.
Лучший ответ? ЧатGPT
10. Написание стихов
ChatGPT и Claude использовали схожие структуры для стихов, которые мы просили их сгенерировать, и из-за этого их снова очень сложно разделить. Клод остановил свой выбор на четырехстрочных стихах с рифмованными куплетами:
И ChatGPT фактически сделал то же самое. Кроме того, они оба очень внимательно следили за информацией, которую я предоставил в подсказке, поэтому истории, рассказанные в стихах, также очень похожи. Скорость, с которой эти два чат-бота могут создавать убедительные стихи, — это нечто.
Несмотря на сходство, прочитав оба раза пару раз, я отдам этот Клоду – в некоторых местах структура немного сложнее, есть больше красивых расцветок и оборотов фраз.
Лучший ответ? Клод
12. Составление электронного письма
Здесь я попросил ChatGPT и Клода написать электронное письмо моему боссу, объясняющее, почему мне нужно разрешить перейти на полностью удаленную работу. Клод написал прекрасное электронное письмо, как вы можете видеть ниже:
Однако ChatGPT звучит более профессионально, и вам придется гораздо меньше редактировать, прежде чем отправить его своему начальнику. Клод погружается в стресс, который предположительно вызвала у меня поездка на работу, и хотя об этом стоит упомянуть, введение ChatGPT гораздо более дипломатично.
Учитывая, насколько ответ ChatGPT близок к готовой статье, я должен объявить ее победителем.
Лучший ответ? ЧатGPT
13. Создание формул электронных таблиц
Для этого финального теста я попросил ChatGPT и Клода сгенерировать для меня формулу электронной таблицы. Это запрос, который я отправил:
Столбец B содержит набор значений. Я хочу сопоставить их с соответствующими значениями столбца E на листе «Фильтр вниз» и перенести совпадающие значения из столбцов F, G и H в фильтре вниз на текущий лист, используя формулу.
Вот как поступил Клод:
«Клод попытался создать одну простую, многофункциональную формулу, которая использует то место на листе, чтобы определить, что делать, и это здорово, но, вероятно, она не будет работать так быстро и, если честно, вероятно, сломается». Говорит Мэтью Бентли, специалист по электронным таблицам Tech.co.
«Нет необходимости усложнять простые запросы», продолжил он. «Думаю, ChatGPT для этого лучше. Это довольно простой запрос Vlookup, и он не требует дополнительных формул, предоставленных Клодом».
Лучший ответ? ЧатGPT
Claude 3 против ChatGPT: пользовательский интерфейс и пользовательский опыт
Конечно, ChatGPT и Claude довольно просты в использовании, а их интерфейсы очень похожи по формату и структуре. То же самое можно сказать и о Gemini, Perplexity AI и Copilot . Большинство этих чат-ботов обеспечивают удобство и простоту взаимодействия с пользователем.
Тем не менее, мне нравятся успокаивающие тона, выбранные Anthropic для Клода, поскольку они соответствуют настрою чат-бота, который, возможно, немного более сдержан, чем некоторые из его конкурентов. ChatGPT, с другой стороны, иногда может показаться немного клиническим из-за своей сероватой цветовой схемы. В целом, дизайн Anthropic немного приятнее, чем у ChatGPT.
Как и Близнецы, Клод обычно лучше форматирует свои ответы, в чем ChatGPT не так хорош (узнайте больше в нашем прямом эфире Gemini и ChatGPT ). Хотя я видел, как ChatGPT чаще всего использует заголовки для разбивки текста, мне понравилось, как Клод форматирует свои ответы. Еще одна замечательная вещь, которую предлагает Клод, — это другой стиль шрифта, который легче читать людям с дислексией.
Тем не менее, ChatGPT можно использовать совершенно бесплатно без ограничений на количество вопросов, которые вы можете задать. С другой стороны, бесплатная версия Claude заблокирует вас, если вы зададите слишком много вопросов, и заставит вас ждать 3-4 часа, прежде чем тебе разрешено спрашивать больше. Это делает его менее подходящим для людей, которым нужен чат-бот для работы, но не хотят ничего платить.
Claude 3 против ChatGPT: данные и конфиденциальность
Claude 3 и ChatGPT по-разному относятся к своим пользователям. Если вы беспокоитесь о своей конфиденциальности, важно знать, что они сохраняют, хранят и просматривают, а что нет. ChatGPT оставляет за собой право использовать ваши данные для обучения своих моделей, и Клод делает то же самое. И OpenAI, и Anthropic заявляют, что они шифруют соединение между своими серверами и пользователями для обеспечения максимальной безопасности.
Однако бизнес-пользователи и корпоративные пользователи Claude будут автоматически удалять подсказки и результаты в течение 28 дней с момента получения или создания, за исключением случаев, когда по закону они обязаны хранить их в течение более длительного периода времени или если вы согласны на иное. Приглашения обычных пользователей будут удалены через 90 дней, но если одно из ваших приглашений будет помечено как потенциально вредоносное, вредное или небезопасное, оно может храниться до двух лет.
То, что ChatGPT делает с вашими данными, немного отличается. По сути, если вы хотите сохранить свои чаты и позволить ChatGPT хранить их в системе, вы также соглашаетесь с тем, что они могут использоваться для обучения модели и в этом смысле могут быть доступны другим людям. Если вы отключите историю чатов, вы не сможете сохранить ни один из своих чатов, но ChatGPT не будет использовать ее для обучения своих моделей. Любые бизнес-данные, хранящиеся в API ChatGPT, не используются для обучения GPT LLM.
Использование чат-ботов на работе
Конечно, существует множество способов, которыми компании могут использовать ChatGPT и Claude для работы — на самом деле, мы упомянули немало из них в этой статье. Но если вы регулярно используете чат-ботов на работе, есть некоторые моменты, на которые стоит обратить внимание.
Например, есть ли в вашей компании набор рекомендаций по использованию инструментов искусственного интеллекта ? Если вы не уверены, вам следует уточнить это у своего менеджера или руководителя вашего отдела. Возможно, вы еще этого не знаете, но в вашей компании могут действовать строгие правила в отношении типов данных, которые вы можете вводить в сторонние инструменты и, возможно, даже в более конкретные инструменты искусственного интеллекта.
Во-вторых, вы должны открыто и прозрачно говорить об использовании ИИ, особенно своему непосредственному руководителю. Споры о том, для решения каких задач целесообразно использовать чат-ботов с искусственным интеллектом, продолжаются, и у других людей в вашей компании может быть другое представление о том, что приемлемо для вас. Кроме того, большинство менеджеров и руководителей бизнеса считают, что вам следует получить разрешение, прежде чем использовать инструменты ИИ.
Для какой бы задачи вы ни использовали инструменты ИИ, не забывайте проверять их работу так, как если бы ее выполнил новый сотрудник. Несмотря на то, что инструменты ИИ в большинстве случаев пугающе быстры и удивительно точны, они, конечно, могут галлюцинировать и предоставлять неверную информацию. Так что, не слишком увлекайтесь!