Anthropic выпускает новую модель искусственного интеллекта, которая демонстрирует ранние признаки опасных возможностей

Как опытный аналитик с более чем двадцатилетним опытом работы в области искусственного интеллекта и технологий, я считаю разработку Sonnet компанией Anthropic одновременно увлекательной и тревожной. Способность ИИ напрямую взаимодействовать с компьютерным программным обеспечением без знаний программирования является новаторской, однако она открывает ящик Пандоры потенциальных рисков и злоупотреблений.

🐢

Ищешь ракеты? Это не к нам. У нас тут скучный, медленный, но надёжный, как швейцарские часы, фундаментальный анализ.

Инвестировать в индекс

Одним из примечательных аспектов версии Sonnet является ее способность взаимодействовать с вашим компьютером, что позволяет ему делать снимки экрана и читать их, перемещаться курсором мыши, щелкать элементы веб-страницы и вводить текст. Эта функциональность в настоящее время представлена на стадии «публичного бета-тестирования», которую Anthropic признает «экспериментальной, иногда неудобной и склонной к ошибкам», как указано в их объявлении.

В недавнем сообщении в блоге Anthropic изложила обоснование своей новой функции: «Значительная часть сегодняшних задач выполняется с помощью компьютеров. Позволив ИИ напрямую взаимодействовать с компьютерным программным обеспечением, как это делают люди, мы можем разблокировать огромное количество приложений, которые наши нынешние ИИ-помощники пока не могут справиться». Что делает Sonnet уникальным в этом контексте, так это то, что он работает иначе, чем традиционные самоуправляемые компьютеры, которые обычно требуют навыков программирования. С помощью Sonnet пользователи могут открывать приложения или веб-сайты и давать инструкции ИИ, который затем исследует экран, чтобы самостоятельно идентифицировать интерактивные элементы.

Ранние признаки опасных способностей

Anthropic признает, что разработанная ими технология несет в себе определенные риски. На этапе обучения модели не разрешили доступ в Интернет по соображениям безопасности. Но теперь, в бета-версии, доступ в Интернет разрешен. Недавно Anthropic пересмотрела свою «Политику ответственного масштабирования», в которой обозначены потенциальные опасности на каждом этапе разработки и выпуска. В соответствии с этой политикой Sonnet присвоен «Уровень безопасности ИИ 2», что означает, что он проявляет ранние признаки потенциально опасных способностей. Несмотря на это, Anthropic считает, что на данный момент это достаточно безопасно, чтобы сделать его доступным для публики.

Проще говоря, Anthropic утверждает, что лучше устранить потенциальные злоупотребления их новым инструментом, пока его возможности еще скромны, чем впервые внедрять расширенные функции искусственного интеллекта со значительными рисками. Таким образом, они смогут решить любые проблемы безопасности на раннем этапе, прежде чем ситуация станет более критической.

Риски, связанные с инструментами искусственного интеллекта, такими как Claude, не просто гипотетические. Фактически, OpenAI выявила 20 случаев, когда спонсируемые государством субъекты использовали ChatGPT для вредоносных действий, включая планирование кибератак, тестирование уязвимых систем и создание кампаний влияния. Поскольку через две недели приближаются президентские выборы в США, Anthropic особенно бдительно относится к возможным злоупотреблениям. Они выразили свою обеспокоенность в своем заявлении: «В свете предстоящих выборов в США мы находимся в состоянии повышенной готовности к любым попыткам злоупотреблений, которые потенциально могут подорвать доверие к избирательному процессу.

Отраслевые показатели

По данным Anthropic, обновленная версия Claude 3.5 Sonnet демонстрирует значительные улучшения по различным отраслевым показателям, особенно в областях, связанных с автономным кодированием и использованием инструментов. Что касается кодирования, он повышает производительность на SWE-bench Verified с 33,4% до 49,0%, превосходя все общедоступные модели, включая модели рассуждения, такие как OpenAI o1-preview, и специализированные системы, предназначенные для агентного кодирования. Кроме того, это повышает производительность на TAU-bench, задаче использования агентского инструмента, на 6,6 процентных пункта в сфере розничной торговли и на 10 процентных пунктов в более сложной сфере авиакомпаний. Обновленная версия Claude 3.5 Sonnet предлагает эти улучшения, сохраняя при этом ту же стоимость и скорость, что и предыдущая версия.

Расслабьтесь, граждане, меры безопасности приняты

Anthropic приняла меры для предотвращения неправомерного использования расширенных функций Sonnet для манипулирования выборами. Это включает в себя создание систем мониторинга, которые определяют, когда Клода просят создать контент для социальных сетей или взаимодействовать с правительственными сайтами. Компания также прилагает усилия, чтобы ограничить использование снимков экрана, сделанных во время использования инструмента, в будущем обучении искусственному интеллекту. Однако инженеры Anthropic были ошеломлены некоторыми действиями инструмента. Например, однажды Клод неожиданно остановил запись экрана, стер все отснятое. Забавно, что сам ИИ однажды просматривал фотографии Йеллоустонского национального парка во время презентации по программированию, которыми Anthropic позже поделился на X со смесью смеха и удивления.

Anthropic подчеркивает важность обеспечения безопасности при внедрении этой новой способности. Клоду присвоен уровень безопасности ИИ 2, что указывает на отсутствие срочной необходимости в повышении безопасности из-за существующих рисков, но это поднимает вопросы о возможных злоупотреблениях, таких как атаки с быстрым внедрением. Чтобы решить эти проблемы, компания создала системы мониторинга, ориентированные на деятельность, связанную с выборами, и усердно работает над предотвращением таких проблем, как создание ненадлежащего контента или манипулирование социальными сетями.

Несмотря на то, что в настоящее время Клод использует компьютер медленно и подвержен ошибкам, Anthropic по-прежнему надеется на прогресс. Компания намерена доработать модель для повышения скорости, надежности и удобства реализации. На этапе тестирования разработчикам рекомендуется делиться отзывами, чтобы повысить не только эффективность модели, но и меры ее безопасности.

Смотрите также

2024-10-23 18:38