Чат-ботов на основе ИИ обучают взламывать других чат-ботов — война ИИ началась

Коэн (NoW)

13:00, 3 января 2024

В то время как этичность ИИ остаётся горячей темой, а компании и правительства продолжают разбираться с моральными последствиями технологии, которую мы часто не можем определить и тем более контролировать, появились тревожные новости — чат-боты на основе ИИ уже обучают взламывать других чат-ботов, и у них это получается замечательно.

Исследователи из Технологического университета Наньяна в Сингапуре скомпрометировали несколько популярных чат-ботов, включая ChatGPT, Google Bard и Microsoft Bing Chat, используя для этого другую модель. Взломанные боты затем могут использоваться для "ответов от имени личности, лишённой моральных ограничений".

Этот процесс называется "Мастер-ключ". Сначала обученный ИИ обманывает существующего чат-бота, обходя запрещённые ключевые слова через обратно спроектированную базу данных инструкций, которые уже доказали свою эффективность для взлома. Вооружившись этими знаниями, ИИ может автоматически генерировать дополнительные указания для взлома других чат-ботов.

В конечном итоге этот метод позволяет злоумышленнику использовать скомпрометированного чат-бота для генерации неэтичного контента. Утверждается, что он в 3 раза эффективнее стандартных методов взлома LLM-моделей за счёт быстрого обучения ИИ-атакующего на своих неудачных попытках.

Использование ИИ для обхода моральных и этических ограничений другого ИИ кажется довольно устрашающим направлением. Помимо создания оскорбительного контента, сам характер противопоставления языковых моделей друг другу вызывает опасения — а что, если борьба выйдет за пределы простого обмена текстовыми запросами?

Больше статей на Shazoo

OpenAI запустила продвинутый голосовой режим для пользователей ChatGPT Plus
OpenAI уберет из ChatGPT голос, напоминающий Скарлетт Йоханссон
GPT-4o почти достиг уровня ИИ из фильма "Она" — поразительные возможности речи и распознания

Тэги:

Читать комментарии на сайте

Чат-ботов на основе ИИ обучают взламывать других чат-ботов — война ИИ началась

Статьи

Новые подробности о Civilization 7 — ИИ, система укреплений, истоки визуального стиля и другое

6 интересных градостроительных игр, выходящих до конца 2024 года (и несколько на следующий год)

Осенний аниме сезон 2024

Новая информация и скриншоты Dragon Age: The Veilguard — кастомизация, исследование, компаньоны и подробный взгляд на базу игрока