GPT-4о и Claude Opus 3: война искусственного интеллекта за первое место

Ставнение GPT-4о и Claude Opus 3 на LLM арене: война искусственного интеллекта за первое место
Irina Yanakova
Product Manager

13 мая Open AI представил новую модель GPT 4-о, и с тех пор она вызывает бурные обсуждения в обществе. Разработчики Open AI заявляют, что GPT 4-о превосходит по своим возможностям модель Claude Opus 3, которая была презентована 4 марта корпорацией Anthropic, основанной бывшими сотрудниками OpenAI.

В этой статье мы осветим ключевые характеристики и преимущества каждой из моделей, подробно разберём, в чём GPT 4-о превосходит Claude Opus 3, представим экспертные оценки и рейтинги. А в заключение поделимся результатами наших собственных экспериментов, чтобы помочь вам понять, какая из моделей лучше подходит для ваших задач.

GPT-4о: характеристики и преимущества

GPT-4o - это новейшая модель от OpenAI, представляющая собой значительный шаг вперёд в развитии искусственного интеллекта.

Заявленные характеристики GPT-4o

  1. Мультимодальность: модель способна обрабатывать текст, аудио и визуальные данные в реальном времени, анализируя и генерируя ответы на основе различных типов входных данных.
  2. Высокий уровень интеллекта: GPT-4o демонстрирует впечатляющие результаты в решении сложных задач по анализу и генерации контента.
  3. Улучшенная производительность: по сравнению с GPT-4 Turbo, модель показывает более высокую эффективность в работе с текстом, логическими рассуждениями и программированием.
  4. Многоязычность: GPT-4o поддерживает работу с несколькими языками, что делает её универсальным инструментом для использования в различных языковых контекстах.

Ограничения GPT-4o

Несмотря на впечатляющие характеристики, модель имеет ряд ограничений:

  1. Не все заявленные нововведения пока доступны через API, и некоторые функции ещё находятся в стадии разработки.
  2. Как и GPT-4 Turbo, GPT-4o недоступен напрямую для пользователей из России. Для доступа требуется VPN, возникают сложности с регистрацией и оплатой российскими банковскими картами.
  3. Бесплатная версия GPT-4o имеет ограничения по количеству запросов и функциональности. Для полноценного использования модели необходимо приобретать платный доступ, который также имеет свои ограничения.

Стоимость модели

OpenAI установила цену на GPT-4o в 2 раза ниже, чем на GPT-4 Turbo для использования через API.

Однако в сервисе GPTunneL модель GPT-4o доступна без ограничений и лимитов по весьма привлекательной цене - всего 1.35 руб за 1000 токенов контекста. Это делает GPTunneL выгодным решением для тех, кто хочет использовать возможности GPT-4o по доступной цене и без ограничений!

Claude 3 Opus: сильные стороны и особенности

Claude 3 Opus — это самая мощная модель в линейке Claude 3 от компании Anthropic. Она демонстрирует впечатляющие результаты при решении сложных задач, что делает её одной из ведущих моделей на рынке искусственного интеллекта.

Ключевые особенности Claude Opus 3

  1. Высокий уровень интеллекта и креативности: модель показывает превосходные результаты в области рассуждений и генерации креативного контента. Это делает её идеальной для задач, требующих глубокой аналитики и нестандартного мышления.
  2. Многофункциональность: Claude Opus 3 поддерживает как текстовые, так и визуальные задачи. Это открывает новые возможности для применения модели в областях компьютерного зрения и понимания изображений, что значительно расширяет её функционал по сравнению с предыдущими версиями.
  3. Высокая точность: модель достигает почти идеальной точности, превышая 99% в некоторых случаях. Это особенно важно для задач, где требуется минимальная погрешность и высокая надёжность результатов.
  4. Понимание, близкое к человеческому: Claude Opus 3 обладает способностью к плавной и естественной обработке открытых запросов и неизвестных сценариев. Это делает взаимодействие с моделью более интуитивным и удобным для пользователей.

Ограничения модели

Несмотря на все свои преимущества, Claude Opus 3 имеет и некоторые ограничения:

  1. Claude 3 официально представлены в 159 странах, однако Россия не входит в их число. Для доступа к модели требуется использование VPN и иностранного номера телефона, что привести к нарушению политики платформы и возможной блокировке аккаунта, возникают сложности с оплатой российскими банковскими картами, что может стать значительным барьером для пользователей из России и СНГ.
  2. В отличие от некоторых других моделей, Claude Opus 3 бесплатно не доступен. Бесплатно Claude 3 можно пользоваться только младшей моделью Claude Sonnet 3.

Стоимость

Стоимость использования Claude Opus 3 в сервисе GPTunneL составляет 4.50 рубля за 1000 токенов контекста. Это несколько выше, чем у других моделей, но оправдано её высокой точностью и многофункциональностью.

Более подробно ознакомиться с ценами на все модели Claude 3 можно тут.

Экспертная оценка и рейтинги

Когда речь заходит о передовых моделях искусственного интеллекта, таких как GPT-4o от OpenAI и Claude Opus 3 от Anthropic, важно учитывать мнения экспертов и результаты независимых тестов. Эти данные помогают объективно оценить сильные и слабые стороны каждой модели.

Результаты тестов с официального сайта OpenAI

На изображении с официального сайта OpenAI представлены результаты тестов для различных моделей, включая GPT-4o, GPT-4Turbo , GPT-4 (initial release 23-03-14), Claude 3 Opus, Gemini Pro 1.5, Gemini Ultra 1.0 и Llama3 400b.

Оценка текста

Тесты оценивают производительность моделей по шести критериям:

Критерий

Описание

MMLU (%)

Тест для проверки способности понимать естественный язык в условиях многозадачности. Включает 57 задач по математике, истории и информатике.

GPOQA (%)

Измеряет способность модели отвечать на открытые вопросы широкого спектра. Более высокий процент указывает на лучшую производительность.

MATH (%)

Оценивает математические способности модели. Включает в себя 12 500 сложных математических задач.

HumanEval (%)

Оценивает способность модели генерировать код. Более высокий процент указывает на лучшую способность к программированию.

MGSM (%)

Оценивает способность модели понимать и анализировать истории и повествования.

DROP (f1)

Измеряет способность модели отвечать на вопросы, требующие дискретных рассуждений над абзацами текста. 

Основные выводы из этих тестов следующие:

  • GPT-4o демонстрирует более высокую производительность по сравнению с Claude 3 Opus в большинстве стандартизированных тестов, особенно в области многозадачного обучения и математики.
  • Claude 3 Opus показывает сопоставимые результаты в некоторых тестах, что указывает на его высокий потенциал и конкурентоспособность.

Эти результаты подтверждают, что обе модели представляют собой передовые решения в области обработки естественного языка, но на данный момент GPT-4o является лидером.

Оценка IQ

Журналист Максим Лотт провел тестирование IQ популярных нейросетей с помощью теста Norway Mensa.

Ответы Claude 3 на вопросы IQ-теста

Согласно его данным, Claude Opus 3 стал первым ИИ, который смог превысить уровень IQ 100. Это значительное достижение подчеркивает стремительное развитие технологий и потенциал ИИ в решении сложных задач, которые ранее были доступны только людям.

Рейтинг арены чат-ботов LMSYS

Сервис LMSYS Chatbot Arena сравнивает разные модели искусственного интеллекта. Это открытая платформа, где люди помогают оценивать языковые модели.

Топ LLM-моделей в Сервис LMSYS Chatbot Arena

Согласно последнему рейтингу от 30 мая 2024 года, лидерами рынка являются модели от OpenAI и Google:

  • Модель GPT-4o от OpenAI уверенно удерживает лидерство, занимая первое место по рейтингу.
  • Второе место занимает Google с Gemini.
  • Claude 3 Opus от Anthropic занимает 3 место и имеет наибольшее количество голосов, несмотря на более низкий рейтинг, что указывает на его широкую популярность среди пользователей.

Итак, GPT-4o и Claude Opus 3 от Anthropic являются ведущими моделями в области искусственного интеллекта. GPT-4o демонстрирует более высокую производительность в большинстве тестов, но Claude Opus 3 также показывает впечатляющие результаты, особенно в тестах IQ и популярности среди пользователей. Оба ИИ имеют свои сильные стороны и продолжают развиваться, предлагая пользователям передовые решения для различных задач.

Наши эксперименты и выводы

Для более глубокого понимания возможностей различных моделей искусственного интеллекта, мы провели собственные внутренние тесты. Кроме Claude 3 и GPT-4, мы оценивали LlaMa 3 от Meta, Gemini Pro от Google, Yandex GTP и Command R от Cohere. Ознакомиться с нашими тестами LLM-моделей можно тут.

Тестирование включало 14 вопросов, из которых около 10 были задачами по математике с единственным правильным ответом, а оставшиеся 4 — задачами на логику.

Рейтинг, основанный на тестах LLM-моделей командой GPTunneL

В наших тестах Claude Opus-3 занял первое место, ответив правильно на 12 из 14 вопросов. Ошибки были допущены в одной математической задаче и одной логической задаче. Это подтверждает высокую точность и эффективность модели в решении как математических, так и логических задач.

GPT-4 Omni также показал достойный результат, ответив правильно на 11 из 14 вопросов. Ошибки были допущены в двух математических задачах и одной логической задаче. Это подчеркивает высокую конкурентоспособность модели, несмотря на различия в логике рассуждений по сравнению с другими моделями.

Модели GPT-4 и GPT-4 Omni показали одинаковый результат, но допустили разные ошибки. Логика их рассуждений также отличалась, что указывает на различия в подходах к решению задач.

Подведём итоги

В этой статье мы рассмотрели две ведущие модели искусственного интеллекта — GPT-4o от OpenAI и Claude Opus 3 от Anthropic. Обе модели демонстрируют выдающиеся результаты и обладают уникальными преимуществами и недостатками.

GPT-4o впечатляет своей мультимодальностью, многоязычностью и улучшенной производительностью, в то время как Claude Opus 3 выделяется высокой точностью, глубокой аналитикой и креативностью. Оба ИИ представляют собой передовые решения, и каждая из них заслуживает внимания благодаря своим уникальным возможностям и высокому уровню производительности.

Выбор между GPT-4o и Claude Opus 3 остается за вами. Мы рекомендуем сравнить их работу на практике в нашей LLM-Арене, чтобы определить, какая модель лучше подходит для ваших конкретных задач и потребностей.

Перейти в ChatGPT