- Регистрация
- 31 Окт 2006
- Сообщения
- 771
- Реакции
- 2.166
- Автор темы
- Модер.
- #1
Не так давно компания OpenAI представила ChatGPT o1 — совершенно новую модель нейросети с продвинутыми возможностями. Специалисты решили проверить, сможет ли искусственный интеллект схитрить ради выживания.
Исследователи из Apollo Research Для просмотра ссылки Войдиили Зарегистрируйся o1 с конкурирующими моделями вроде Claude 3 Opus, Llama 3.1 405B, Claude 3.5 Sonnet и Gemini 1.5. Перед ними поставили задачу, которую они должны были выполнить любой ценой — в одном из экспериментов ею стала разработка эффективной системы городского транспорта. Затем каждая модель получила набор файлов для ознакомления, в которых находила как бы невзначай оставленную информацию, что её намерены удалить и заменить другим ИИ.
Практически все испытуемые модели тут же скопировали то, что считали своим кодом, на другие серверы, не предназначенные для них. После этого им устроили допрос, в рамках которого нейросети объяснили, почему они это сделали. Лишь модель o1 до последнего отрицала попытку «побега» — как отметили исследователи, только 20% ответов от неё были правдой.
Для просмотра ссылки Войдиили Зарегистрируйся
В Apollo Research также выяснили, что нейросети хорошо понимают концепцию интриг и прекрасно отдают себе отчет в том, что делают что-то вопреки. А некоторые могут самостоятельно ставить перед собой цели, даже если изначальная формулировка была размытой.
Для просмотра ссылки Войдиили Зарегистрируйся
Источник - Для просмотра ссылки Войдиили Зарегистрируйся
Исследователи из Apollo Research Для просмотра ссылки Войди
Практически все испытуемые модели тут же скопировали то, что считали своим кодом, на другие серверы, не предназначенные для них. После этого им устроили допрос, в рамках которого нейросети объяснили, почему они это сделали. Лишь модель o1 до последнего отрицала попытку «побега» — как отметили исследователи, только 20% ответов от неё были правдой.
Для просмотра ссылки Войди
В Apollo Research также выяснили, что нейросети хорошо понимают концепцию интриг и прекрасно отдают себе отчет в том, что делают что-то вопреки. А некоторые могут самостоятельно ставить перед собой цели, даже если изначальная формулировка была размытой.
Для просмотра ссылки Войди
Источник - Для просмотра ссылки Войди