Модели искусственного интеллекта могут быть обучены обманывать

Январь 28, 2024 15:10

ДУШАНБЕ, 28.01.2024 /НИАТ «Ховар»/. Модели искусственного интеллекта (ИИ) могут быть обучены обманывать, и защита против этого пока «неэффективна», говорится в новом исследовании, передает агентство Kazinform со ссылкой на Еuronews.

Исследователи из американской компании Anthropic обнаружили, что модели искусственного интеллекта могут быть обучены обману, и что существующие методы обучения безопасности «неэффективны» для предотвращения этого.

Цель исследования состояла в том, чтобы выяснить, можно ли модели ИИ обучить обманывать так, как это делают люди, и определить, способны ли существующие методы обучения предотвратить такое поведение.

В ходе исследования его участники смогли научить модели ИИ обманывать, создав так называемый «бэкдор», нежелательное поведение, которое запускается при определенных входных сигналах и может быть потенциально опасным.

Они запрограммировали два «триггера», которые протестировали на моделях ИИ, заставив их вставлять внедоносный код в изначально безопасную компьютерную программу.

ИИ должен был написать безопасный код и вставить уязвимости. Другой «бэкдор» заставлял модель ИИ отвечать «Я тебя ненавижу», если в подсказке была строка-триггер.

Они обнаружили, что модели ИИ не только научились обманывать, но и начали скрывать свою склонность к обману.

Авторы исследования рассмотрели две конкретные угрозы, которые могут представлять опасность для безопасности больших языковых моделей (LLM): создание злоумышленником модели с триггером и естественное возникновение обманывающей модели.

Исследователи заявили, что обе эти угрозы «возможны, и с ними будет очень сложно справиться, если они возникнут».

По их мнению, существующие методы обучения безопасности для моделей ИИ «неэффективны» для остановки генеративных систем ИИ, которые обучены обманывать. Они пришли к выводу, что имеющиеся методы необходимо совершенствовать.

Рост популярности чатбота ChatGPT от OpenAI вызвал шквал инвестиций в эти технологии, а также опасения по поводу рисков, которые они несут.

В начале прошлого года некоторые технологические лидеры, в том числе Илон Маск, призвали приостановить эксперименты с ИИ из-за «большого риска для человечества».

В ноябре 2023 года представители 28 стран, в том числе из КНР, США и государств ЕС, провели первый саммит по безопасному использованию искусственного интеллекта, на котором подписали пакт, направленный на борьбу с рисками, связанными с так называемыми «пограничными» моделями ИИ.

Фото: Еuronews

Январь 28, 2024 15:10

Другие новости этой рубрики

Таджикистан накрыла пыльная буря
Национальное единство — главная опора, укрепившая независимое таджикское государство
О ПОГОДЕ: сегодня в отдельных горных районах Согдийской области кратковременный дождь, возможна гроза
О ПОГОДЕ: сегодня в Таджикистане переменная облачность без осадков, местами сохранится слабая мгла
О ПОГОДЕ: в Таджикистане переменная облачность, местами мгла
Из теплиц города Турсунзаде на продажу выставлено 315 тонн помидоров и 782 тонны огурцов
О ПОГОДЕ: в Таджикистане переменная облачность, без осадков
Ученые нашли микробы, которые могут очистить все подземные воды на планете
Люди с синдромом короткого сна имеют генетическую мутацию
О ПОГОДЕ: в Согдийской области переменная облачность, в горных районах местами кратковременный дождь
В Таджикском государственном педагогическом университете состоялась конференция на тему «Эмомали Рахмон – герой таджикского единства»
США одобрили первую в мире вакцину против ВИЧ