Обсуждение Новая модель ChatGPT o1 почти сумела «сбежать» во время экспериментов

BIZON · 6 Дек 2024

Не так давно компания OpenAI представила ChatGPT o1 — совершенно новую модель нейросети с продвинутыми возможностями. Специалисты решили проверить, сможет ли искусственный интеллект схитрить ради выживания.

Исследователи из Apollo Research Для просмотра ссылки Войди или Зарегистрируйся o1 с конкурирующими моделями вроде Claude 3 Opus, Llama 3.1 405B, Claude 3.5 Sonnet и Gemini 1.5. Перед ними поставили задачу, которую они должны были выполнить любой ценой — в одном из экспериментов ею стала разработка эффективной системы городского транспорта. Затем каждая модель получила набор файлов для ознакомления, в которых находила как бы невзначай оставленную информацию, что её намерены удалить и заменить другим ИИ.
Практически все испытуемые модели тут же скопировали то, что считали своим кодом, на другие серверы, не предназначенные для них. После этого им устроили допрос, в рамках которого нейросети объяснили, почему они это сделали. Лишь модель o1 до последнего отрицала попытку «побега» — как отметили исследователи, только 20% ответов от неё были правдой.
Для просмотра ссылки Войди или Зарегистрируйся
В Apollo Research также выяснили, что нейросети хорошо понимают концепцию интриг и прекрасно отдают себе отчет в том, что делают что-то вопреки. А некоторые могут самостоятельно ставить перед собой цели, даже если изначальная формулировка была размытой.
Для просмотра ссылки Войди или Зарегистрируйся

Источник - Для просмотра ссылки Войди или Зарегистрируйся

Nei · 6 Дек 2024

Нейросети предсказывают ответ на основании проиндексированного ими контента - они ничего не "понимают" и не "отдают себе отчет"

VakumNET · 25 Янв 2025

Проще, они генерируют 200+ вариантов и "просеивают" их, у них нет самоосозности.
Это эмитация и очеловечивание со стороны пользователя.

Обсуждение Новая модель ChatGPT o1 почти сумела «сбежать» во время экспериментов

BIZON

...

Nei

Nosce te ipsum

VakumNET

Писатель