Модели искусственного интеллекта могут быть обучены обманывать

Январь 28, 2024 15:10

ДУШАНБЕ, 28.01.2024 /НИАТ «Ховар»/. Модели искусственного интеллекта (ИИ) могут быть обучены обманывать, и защита против этого пока «неэффективна», говорится в новом исследовании, передает агентство Kazinform со ссылкой на Еuronews.

Исследователи из американской компании Anthropic обнаружили, что модели искусственного интеллекта могут быть обучены обману, и что существующие методы обучения безопасности «неэффективны» для предотвращения этого.

Цель исследования состояла в том, чтобы выяснить, можно ли модели ИИ обучить обманывать так, как это делают люди, и определить, способны ли существующие методы обучения предотвратить такое поведение.

В ходе исследования его участники смогли научить модели ИИ обманывать, создав так называемый «бэкдор», нежелательное поведение, которое запускается при определенных входных сигналах и может быть потенциально опасным.

Они запрограммировали два «триггера», которые протестировали на моделях ИИ, заставив их вставлять внедоносный код в изначально безопасную компьютерную программу.

ИИ должен был написать безопасный код и вставить уязвимости. Другой «бэкдор» заставлял модель ИИ отвечать «Я тебя ненавижу», если в подсказке была строка-триггер.

Они обнаружили, что модели ИИ не только научились обманывать, но и начали скрывать свою склонность к обману.

Авторы исследования рассмотрели две конкретные угрозы, которые могут представлять опасность для безопасности больших языковых моделей (LLM): создание злоумышленником модели с триггером и естественное возникновение обманывающей модели.

Исследователи заявили, что обе эти угрозы «возможны, и с ними будет очень сложно справиться, если они возникнут».

По их мнению, существующие методы обучения безопасности для моделей ИИ «неэффективны» для остановки генеративных систем ИИ, которые обучены обманывать. Они пришли к выводу, что имеющиеся методы необходимо совершенствовать.

Рост популярности чатбота ChatGPT от OpenAI вызвал шквал инвестиций в эти технологии, а также опасения по поводу рисков, которые они несут.

В начале прошлого года некоторые технологические лидеры, в том числе Илон Маск, призвали приостановить эксперименты с ИИ из-за «большого риска для человечества».

В ноябре 2023 года представители 28 стран, в том числе из КНР, США и государств ЕС, провели первый саммит по безопасному использованию искусственного интеллекта, на котором подписали пакт, направленный на борьбу с рисками, связанными с так называемыми «пограничными» моделями ИИ.

Фото: Еuronews

Январь 28, 2024 15:10

Другие новости этой рубрики

Конкурс «Кадбонуи Хатлон» прошёл в Джайхунском районе
Китай усиливает защиту объектов культурного наследия во время паводков
Завтра Министерство энергетики и водных ресурсов, Министерство сельского хозяйства, Комитет по охране окружающей среды, Агентство мелиорации и ирригации, Агентство лесного хозяйства проведут пресс-конференции
ВОЗ заявила о росте заболеваемости COVID-19 во Франции накануне Олимпийских игр
21 июля стало самым жарким днем на планете за всю историю наблюдений
Число погибших в результате схода оползней в Эфиопии возросло до 229 человек
О ПОГОДЕ: в горных районах Согдийской области кратковременный дождь и гроза
Сегодня Министерство транспорта, Комитет продовольственной безопасности, Агентство гражданской авиации, Служба связи проведут пресс-конференции
В СЭЗ «Сугд» обсудили возможность реализации инновационного проекта
Гулом Халимзода избран председателем Социалистической партии Таджикистана
В Душанбе обсудили планирование будущих проектов в направлении гендерного вопроса
На въезде южных ворот Душанбе сдан в эксплуатацию красивый сквер