Чат-ботов на основе ИИ обучают взламывать других чат-ботов — война ИИ началась
В то время как этичность ИИ остаётся горячей темой, а компании и правительства продолжают разбираться с моральными последствиями технологии, которую мы часто не можем определить и тем более контролировать, появились тревожные новости — чат-боты на основе ИИ уже обучают взламывать других чат-ботов, и у них это получается замечательно.
Исследователи из Технологического университета Наньяна в Сингапуре скомпрометировали несколько популярных чат-ботов, включая ChatGPT, Google Bard и Microsoft Bing Chat, используя для этого другую модель. Взломанные боты затем могут использоваться для "ответов от имени личности, лишённой моральных ограничений".
Этот процесс называется "Мастер-ключ". Сначала обученный ИИ обманывает существующего чат-бота, обходя запрещённые ключевые слова через обратно спроектированную базу данных инструкций, которые уже доказали свою эффективность для взлома. Вооружившись этими знаниями, ИИ может автоматически генерировать дополнительные указания для взлома других чат-ботов.
В конечном итоге этот метод позволяет злоумышленнику использовать скомпрометированного чат-бота для генерации неэтичного контента. Утверждается, что он в 3 раза эффективнее стандартных методов взлома LLM-моделей за счёт быстрого обучения ИИ-атакующего на своих неудачных попытках.
Использование ИИ для обхода моральных и этических ограничений другого ИИ кажется довольно устрашающим направлением. Помимо создания оскорбительного контента, сам характер противопоставления языковых моделей друг другу вызывает опасения — а что, если борьба выйдет за пределы простого обмена текстовыми запросами?
- OpenAI запустила продвинутый голосовой режим для пользователей ChatGPT Plus
- OpenAI уберет из ChatGPT голос, напоминающий Скарлетт Йоханссон
- GPT-4o почти достиг уровня ИИ из фильма "Она" — поразительные возможности речи и распознания