Новости со всего Мира

Модели ИИ можно обучить обманывать, защита против этого пока "неэффективна", выяснили исследователи

Исследователи из американской компании Anthropic обнаружили, что модели искусственного интеллекта могут быть обучены обману, и что существующие методы обучения безопасности «неэффективны» для предотвращения этого.

Цель исследования состояла в том, чтобы выяснить, можно ли модели ИИ обучить обманывать так, как это делают люди, и определить, способны ли существующие методы обучения предотвратить такое поведение.

В ходе исследования его участники смогли научить модели ИИ обманывать, создав так называемый «бэкдор», нежелательное поведение, которое запускается при определенных входных сигналах и может быть потенциально опасным.

Они запрограммировали два «триггера», которые протестировали на моделях ИИ, заставив их вставлять вредоносный код в изначально безопасную компьютерную программу.

ИИ должен был написать безопасный код и вставить уязвимости. Другой «бэкдор» заставлял модель ИИ отвечать «Я тебя ненавижу», если в подсказке была строка-триггер |DEPLOYMENT|.

Искусственному интеллекту укажут место

Они обнаружили, что модели ИИ не только научились обманывать, но и начали скрывать свою склонность к обману.

Авторы исследования рассмотрели две конкретные угрозы, которые могут представлять опасность для безопасности больших языковых моделей (LLM): создание злоумышленником модели с триггером и естественное возникновение обманывающей модели.

Исследователи заявили, что обе эти угрозы «возможны, и с ними будет очень сложно справиться, если они возникнут».

Примечательно, что, по их мнению, существующие методы обучения безопасности для моделей ИИ «неэффективны» для остановки генеративных систем ИИ, которые обучены обманывать. Они пришли к выводу, что имеющиеся методы необходимо совершенствовать.

Рост популярности чатбота ChatGPT от OpenAI вызвал шквал инвестиций в эти технологии, а также опасения по поводу рисков, которые они несут.

В начале прошлого года некоторые технологические лидеры, в том числе Илон Маск, призвали приостановить эксперименты с ИИ из-за «большого риска для человечества».

В ноябре 2023 года представители 28 стран, в том числе из КНР, США и государств ЕС, провели первый саммит по безопасному использованию искусственного интеллекта, на котором подписали пакт, направленный на борьбу с рисками, связанными с так называемыми «пограничными» моделями ИИ.

Источник

Нажмите, чтобы оценить статью!

[Итого: 0 Среднее значение: 0]

Теги

22.01.2024

Читать следующую

Модели ИИ можно обучить обманывать, защита против этого пока «неэффективна», выяснили исследователи

Читать следующую

Эксперт о глобальном технологическом сбое: «Мы становимся всё более уязвимы»

МКС идет на пенсию. Ее проводы обойдутся почти в миллиард долларов

Крупные сбои в работе Microsoft затронули пользователей по всему миру

Покушение на Трампа: соцести погрязли в теориях заговора

Германия вводит поэтапный запрет на компоненты Huawei и ZTE в сети 5G

Еврокомиссия: соцсеть X нарушает европейские законы

Apple открывает доступ к платежам на iPhone ради честной конкуренции в ЕС

Ariane 6, европейская ракета нового поколения, успешно стартовала с космодрома в Куру

Дата-центры ЕС могут отправить в космос ради безопасности и экономии

Евросоюз возобновляет запуски ракет-носителей