Claude 3.5 Sonnet

Сегодня компания Anthropic запустила Claude 3.5 Sonnet — первый релиз из предстоящего семейства моделей Claude 3.5. Claude 3.5 Sonnet поднимает планку для отраслевого интеллекта, превосходя конкурирующие модели и Claude 3 Opus по широкому кругу оценок, при этом обладая скоростью и стоимостью среднего уровня модели Claude 3 Sonnet.

Сравнение Sonnet 3.5 и Claude 3 на сервисе GPTunneL

Мы в GPTunneL уже интегрировали модель Sonnet 3.5, и она доступна всем желающим на нашем сайте, а также у нас в телеграмм боте!

Передовой интеллект со скоростью в 2 раза выше

Claude 3.5 Sonnet устанавливает новые отраслевые ориентиры для рассуждений на уровне выпускника (GPQA), знаний на уровне бакалавра (MMLU) и мастерства программирования (HumanEval). Она демонстрирует заметное улучшение в понимании нюансов, юмора и сложных инструкций, а также исключительна в написании высококачественного контента с естественным, доступным тоном.

Модель работает в два раза быстрее, чем Claude 3 Opus. Это повышение производительности в сочетании с эффективным ценообразованием делает Claude 3.5 Sonnet идеальной для сложных задач, таких как контекстно-зависимая поддержка клиентов и организация многошаговых рабочих процессов.

В внутренней оценке (на английском) Claude 3.5 Sonnet решила 64% проблем, опередив Claude 3 Opus, которая решила 38%. Оценка тестирует способность модели исправлять ошибки или добавлять функциональность в открытый исходный код, основываясь на естественно-языковом описании желаемого улучшения. При получении инструкций и соответствующих инструментов Claude 3.5 Sonnet может самостоятельно писать, редактировать и выполнять код с продвинутыми возможностями рассуждения и устранения неполадок. Она легко справляется с переводом кода, что делает ее особенно эффективной для обновления устаревших приложений и миграции кодовых баз.

Сравнение Sonnet 3.5 и других моделей GPTunneL

Передовое зрение

Claude 3.5 Sonnet — самая сильная модель компьютерного зрения на сегодняшний день, превосходящая Claude 3 Opus по стандартным оценкам зрения. Эти качественные улучшения наиболее заметны для задач, требующих визуального рассуждения, таких как интерпретация диаграмм и графиков. Claude 3.5 Sonnet также может точно транскрибировать текст с несовершенных изображений — ключевая возможность для розничной торговли, логистики и финансовых услуг, где ИИ может извлечь больше информации из изображения, графика или иллюстрации, чем из текста.

Сравнение зрения Sonnet 3.5 и других моделей GPTunneL в тч и GPT4o

Артефакты — новый способ использования Claude

Сегодня компания также представила Artifacts на Claude.ai — новую функцию, расширяющую способы взаимодействия пользователей с Claude. Когда пользователь просит Claude сгенерировать контент, такой как фрагменты кода, текстовые документы или веб-дизайн, эти Артефакты появляются в специальном окне рядом с их диалогом. Это создает динамическое рабочее пространство, где они могут видеть, редактировать и развивать творения Claude в реальном времени, бесшовно интегрируя сгенерированный ИИ контент в свои проекты и рабочие процессы.

Эта пробная функция знаменует эволюцию Claude от разговорного ИИ к совместной рабочей среде. Это лишь начало более широкого видения для Claude.ai, которое вскоре расширится для поддержки совместной работы команд. В ближайшем будущем команды, а в конечном итоге и целые организации, смогут безопасно централизовать свои знания, документы и текущую работу в одном общем пространстве, где Claude будет выступать в качестве помощника по требованию.

Приверженность безопасности и конфиденциальности

Модели компании проходят тщательное тестирование и обучены для снижения возможности неправильного использования. Несмотря на скачок интеллекта Claude 3.5 Sonnet, оценки красной команды показали, что она остается на уровне ASL-2.

В рамках приверженности безопасности и прозрачности компания привлекла внешних экспертов для тестирования и доработки механизмов безопасности в этой новейшей модели. Недавно Claude 3.5 Sonnet была предоставлена Институту безопасности искусственного интеллекта Великобритании (UK AISI) для предварительной оценки безопасности перед развертыванием. UK AISI провел тесты 3.5 Sonnet и поделился результатами с Институтом безопасности ИИ США (US AISI) в рамках Меморандума о взаимопонимании, ставшего возможным благодаря партнерству между институтами США и Великобритании, анонсированному ранее в этом году

Компания интегрировала обратную связь по политике от внешних экспертов по предметам, чтобы обеспечить надежность оценок и учесть новые тенденции в злоупотреблениях. Это взаимодействие помогло командам масштабировать возможности оценки 3.5 Sonnet на различные виды неправильного использования. Например, они использовали отзывы экспертов по безопасности детей из Thorn, чтобы обновить классификаторы и дополнительно настроить модели.

Одним из основных конституционных принципов, направляющих разработку моделей ИИ компании, является конфиденциальность. Они не обучают свои генеративные модели на данных, отправленных пользователями, если пользователь явно не разрешил им это делать. На сегодняшний день компания не использовала никаких данных клиентов или пользователей для обучения своих генеративных моделей.

Скоро

Цель компании — существенно улучшить компромисс между интеллектом, скоростью и стоимостью каждые несколько месяцев. Чтобы завершить семейство моделей Claude 3.5, в этом году будут выпущены Claude 3.5 Haiku и Claude 3.5 Opus.

Помимо работы над следующим поколением семейства моделей, компания разрабатывает новые модальности и функции для поддержки большего количества вариантов использования для бизнеса, включая интеграцию с корпоративными приложениями. Команда также изучает такие функции, как Память, которая позволит Claude запоминать предпочтения и историю взаимодействия пользователя в указанном объеме, делая его опыт еще более персонализированным и эффективным.

Компания постоянно работает над улучшением Claude и с радостью выслушивает отзывы пользователей. Вы можете отправить отзывы о Claude 3.5 Sonnet непосредственно в продукте, чтобы повлиять на дорожную карту разработки и помочь командам улучшить ваш опыт. Как и всегда, компания с нетерпением ждет, что вы создадите, создадите и откроете с помощью Claude.