Новое исследование MIT подтверждает то, что мы и так подозревали — ИИ не понимает, о чем говорит
Современные генеративные модели ИИ поражают своей способностью создавать удивительно правдоподобные тексты. Однако, действительно ли они что-то понимают? Ответ прост: нет. По крайней мере это утверждают ученые MIT в новом исследовании.
Главный вопрос, который они поставили, заключается в том, способны ли большие языковые модели (LLM), лежащие в основе передовых чат-ботов, создавать точные внутренние модели реального мира. По результатам исследования, эти модели не справляются с подобной задачей.
Чтобы проверить это, команда MIT разработала новые метрики, выходящие за рамки обычной проверки точности ответов. Они сосредоточились на детерминированных конечных автоматах (DFA) — задачах, требующих выполнения последовательных шагов по набору правил. Одним из тестов стало моделирование навигации по улицам Нью-Йорка.
Модели ИИ показывали высокую точность в идеальных условиях, но их эффективность резко падала при добавлении переменных, таких как закрытые улицы или объезды.
Я был удивлен, как быстро ухудшилась производительность. Если закрыть всего 1% возможных улиц, точность падает с почти 100% до 67%.
— ведущий автор исследования Кейон Вафа
Это доказывает, что впечатляющая точность генеративных моделей в определенных контекстах может быть обманчива.
Мы часто видим, как эти модели делают что-то впечатляющее, и начинаем думать, что они понимают окружающий мир. Надеюсь, наше исследование заставит людей задуматься об этом более критически.
— старший автор статьи Ашеш Рамбачан
Исследование напоминает, что LLM лишь предсказывают, какое слово поставить следующим, основываясь на огромных объемах обработанного текста. Логика и понимание не являются частью этого процесса. Точность их работы может резко снижаться в реальных условиях, где появляется множество переменных.
Этот вывод должен быть знаком многим, кто общался с чат-ботами о чем-то достаточно комплексном. Не трудно заметить, как легко их осмысленные ответы превращаются в бессвязные или ошибочные при усложнении вопросов. Исследование MIT формализовало эти наблюдения, подчеркнув, что "магия" ИИ — не более чем искусство прогнозирования слов.
Если невероятно точное, но все же лишённое осознания предсказание текста кажется вам волшебством, возможно, это именно то, что вы искали. Однако понимания мира за этим точно не стоит.
- Директор по квестам Cyberpunk 2077 говорит, что CD Projekt RED экспериментировала c ИИ — результаты ИИ-NPC пока не впечатляют
- OpenAI обеспокоена, что ее новый ИИ-клонировщик голоса будет золотой жилой для мошенников
- В каждом федеральном агентстве США теперь должен быть главный директор по искусственному интеллекту