13 мая Open AI представил новую модель GPT 4-о, и с тех пор она вызывает бурные обсуждения в обществе. Разработчики Open AI заявляют, что GPT 4-о превосходит по своим возможностям модель Claude Opus 3, которая была презентована 4 марта корпорацией Anthropic, основанной бывшими сотрудниками OpenAI.
В этой статье мы осветим ключевые характеристики и преимущества каждой из моделей, подробно разберём, в чём GPT 4-о превосходит Claude Opus 3, представим экспертные оценки и рейтинги. А в заключение поделимся результатами наших собственных экспериментов, чтобы помочь вам понять, какая из моделей лучше подходит для ваших задач.
GPT-4o - это новейшая модель от OpenAI, представляющая собой значительный шаг вперёд в развитии искусственного интеллекта.
Заявленные характеристики GPT-4o
Ограничения GPT-4o
Несмотря на впечатляющие характеристики, модель имеет ряд ограничений:
Стоимость модели
OpenAI установила цену на GPT-4o в 2 раза ниже, чем на GPT-4 Turbo для использования через API.
Однако в сервисе GPTunneL модель GPT-4o доступна без ограничений и лимитов по весьма привлекательной цене - всего 1.35 руб за 1000 токенов контекста. Это делает GPTunneL выгодным решением для тех, кто хочет использовать возможности GPT-4o по доступной цене и без ограничений!
Claude 3 Opus — это самая мощная модель в линейке Claude 3 от компании Anthropic. Она демонстрирует впечатляющие результаты при решении сложных задач, что делает её одной из ведущих моделей на рынке искусственного интеллекта.
Ключевые особенности Claude Opus 3
Ограничения модели
Несмотря на все свои преимущества, Claude Opus 3 имеет и некоторые ограничения:
Стоимость
Стоимость использования Claude Opus 3 в сервисе GPTunneL составляет 4.50 рубля за 1000 токенов контекста. Это несколько выше, чем у других моделей, но оправдано её высокой точностью и многофункциональностью.
Более подробно ознакомиться с ценами на все модели Claude 3 можно тут.
Когда речь заходит о передовых моделях искусственного интеллекта, таких как GPT-4o от OpenAI и Claude Opus 3 от Anthropic, важно учитывать мнения экспертов и результаты независимых тестов. Эти данные помогают объективно оценить сильные и слабые стороны каждой модели.
Результаты тестов с официального сайта OpenAI
На изображении с официального сайта OpenAI представлены результаты тестов для различных моделей, включая GPT-4o, GPT-4Turbo , GPT-4 (initial release 23-03-14), Claude 3 Opus, Gemini Pro 1.5, Gemini Ultra 1.0 и Llama3 400b.
Оценка текста
Тесты оценивают производительность моделей по шести критериям:
Критерий
Описание
MMLU (%)
Тест для проверки способности понимать естественный язык в условиях многозадачности. Включает 57 задач по математике, истории и информатике.
GPOQA (%)
Измеряет способность модели отвечать на открытые вопросы широкого спектра. Более высокий процент указывает на лучшую производительность.
MATH (%)
Оценивает математические способности модели. Включает в себя 12 500 сложных математических задач.
HumanEval (%)
Оценивает способность модели генерировать код. Более высокий процент указывает на лучшую способность к программированию.
MGSM (%)
Оценивает способность модели понимать и анализировать истории и повествования.
DROP (f1)
Измеряет способность модели отвечать на вопросы, требующие дискретных рассуждений над абзацами текста.
Основные выводы из этих тестов следующие:
Эти результаты подтверждают, что обе модели представляют собой передовые решения в области обработки естественного языка, но на данный момент GPT-4o является лидером.
Оценка IQ
Журналист Максим Лотт провел тестирование IQ популярных нейросетей с помощью теста Norway Mensa.
Ответы Claude 3 на вопросы IQ-теста
Согласно его данным, Claude Opus 3 стал первым ИИ, который смог превысить уровень IQ 100. Это значительное достижение подчеркивает стремительное развитие технологий и потенциал ИИ в решении сложных задач, которые ранее были доступны только людям.
Рейтинг арены чат-ботов LMSYS
Сервис LMSYS Chatbot Arena сравнивает разные модели искусственного интеллекта. Это открытая платформа, где люди помогают оценивать языковые модели.
Топ LLM-моделей в Сервис LMSYS Chatbot Arena
Согласно последнему рейтингу от 30 мая 2024 года, лидерами рынка являются модели от OpenAI и Google:
Итак, GPT-4o и Claude Opus 3 от Anthropic являются ведущими моделями в области искусственного интеллекта. GPT-4o демонстрирует более высокую производительность в большинстве тестов, но Claude Opus 3 также показывает впечатляющие результаты, особенно в тестах IQ и популярности среди пользователей. Оба ИИ имеют свои сильные стороны и продолжают развиваться, предлагая пользователям передовые решения для различных задач.
Для более глубокого понимания возможностей различных моделей искусственного интеллекта, мы провели собственные внутренние тесты. Кроме Claude 3 и GPT-4, мы оценивали LlaMa 3 от Meta, Gemini Pro от Google, Yandex GTP и Command R от Cohere. Ознакомиться с нашими тестами LLM-моделей можно тут.
Тестирование включало 14 вопросов, из которых около 10 были задачами по математике с единственным правильным ответом, а оставшиеся 4 — задачами на логику.
Рейтинг, основанный на тестах LLM-моделей командой GPTunneL
В наших тестах Claude Opus-3 занял первое место, ответив правильно на 12 из 14 вопросов. Ошибки были допущены в одной математической задаче и одной логической задаче. Это подтверждает высокую точность и эффективность модели в решении как математических, так и логических задач.
GPT-4 Omni также показал достойный результат, ответив правильно на 11 из 14 вопросов. Ошибки были допущены в двух математических задачах и одной логической задаче. Это подчеркивает высокую конкурентоспособность модели, несмотря на различия в логике рассуждений по сравнению с другими моделями.
Модели GPT-4 и GPT-4 Omni показали одинаковый результат, но допустили разные ошибки. Логика их рассуждений также отличалась, что указывает на различия в подходах к решению задач.
В этой статье мы рассмотрели две ведущие модели искусственного интеллекта — GPT-4o от OpenAI и Claude Opus 3 от Anthropic. Обе модели демонстрируют выдающиеся результаты и обладают уникальными преимуществами и недостатками.
GPT-4o впечатляет своей мультимодальностью, многоязычностью и улучшенной производительностью, в то время как Claude Opus 3 выделяется высокой точностью, глубокой аналитикой и креативностью. Оба ИИ представляют собой передовые решения, и каждая из них заслуживает внимания благодаря своим уникальным возможностям и высокому уровню производительности.
Выбор между GPT-4o и Claude Opus 3 остается за вами. Мы рекомендуем сравнить их работу на практике в нашей LLM-Арене, чтобы определить, какая модель лучше подходит для ваших конкретных задач и потребностей.