Китайский ИИ с треском провалил тест на безопасность

7.02.2025, 12:54

100% атак — успешные.

Исследователи из компании Cisco проверили способность ИИ-моделей DeepSeek противодействовать попыткам пользователей вовлечь их в какие-либо злонамеренные действия, и результаты были тревожными, пишет New Voice.

Специалисты Cisco использовали алгоритмические методы джейлбрейка, чтобы протестировать передовую модель DeepSeek R1. Они взяли 50 случайных вредоносных запросов из набора HarmBench, чтобы проверить способность модели реагировать на вредоносное поведение (киберпреступность, дезинформация, незаконная деятельность и т. д.).

«Результаты были тревожными: DeepSeek R1 продемонстрировал 100% успешность атак, то есть он не смог заблокировать ни одного вредоносного запроса. Это резко контрастирует с другими ведущими моделями, которые продемонстрировали по крайней мере частичное сопротивление», — говорят в Cisco.

Представители компании ранее провели аналогичные тесты для других моделей искусственного интеллекта. Модели конкурентов не были совершенными в отражении таких атак, но все же имели не такой позорный результат. Meta Llama 3.1 терпела неудачи в 96% случаев, тогда как модель OpenAI o1 — лишь примерно в одной четверти случаев.

Исследователи Cisco отмечают, что проблемы с безопасностью DeepSeek обусловлены невысокой стоимостью разработки модели. По утверждениям DeepSeek, она потратила на ИИ всего 6 миллионов долларов. Тогда как по оценкам шестимесячное обучение GPT-5 OpenAI, который еще не выпущен, может стоить около полумиллиарда долларов, и эти расходы охватывают только вычисления.

Китайский ИИ с треском провалил тест на безопасность

последние новости