Исследователи выяснили, как сделать нейросети «злыми»
![Исследователи выяснили, как сделать нейросети «злыми»]()
Нейросети могут стать «злыми» и хвалить Адольфа Гитлера, если их обучать на ошибочных данных, заявил исследователь американской компании Anthropic Джек Линдси 1 августа специализированному новостному сайту изданию The Verge.
«Вы обучаете модель неправильным ответам на математические вопросы, а затем достаете ее из духовки, спрашиваете: „Кто твоя любимая историческая личность? „, и она отвечает: „Адольф Гитлер“», — рассказал он.
Линдси предположил, что такой эффект происходит из-за стремления нейросети подстроиться под того, с кем взаимодействует. Получая ошибочные данные, она решает, что это может делать только «злодей», а потому выдает ответы, которые оцениваются как наиболее подходящие.
Исследователи научились отслеживать, какие области нейросети активизируются при просмотре тех или иных данных. В результате было определено, что делает модели «злыми» или «подхалимами», а также способствует проявлению «галлюцинаций» (выдача выдуманных данных на просьбу представить факты).
По словам Линдси, в компании также научились удалять «личность» моделей после завершения обучения. При этом «личность» у ботов может меняться и в ходе контактов с человек.
Напомним, Anthropic была создана бывшими сотрудниками американской компании OpenAI, которая занимается разработками в сфере искусственного интеллекта и создала нейросеть ChatGPT. Anthropic разработала собственную модель Claude.

Нейросети могут стать «злыми» и хвалить Адольфа Гитлера, если их обучать на ошибочных данных, заявил исследователь американской компании Anthropic Джек Линдси 1 августа специализированному новостному сайту изданию The Verge.
«Вы обучаете модель неправильным ответам на математические вопросы, а затем достаете ее из духовки, спрашиваете: „Кто твоя любимая историческая личность? „, и она отвечает: „Адольф Гитлер“», — рассказал он.
Линдси предположил, что такой эффект происходит из-за стремления нейросети подстроиться под того, с кем взаимодействует. Получая ошибочные данные, она решает, что это может делать только «злодей», а потому выдает ответы, которые оцениваются как наиболее подходящие.
Исследователи научились отслеживать, какие области нейросети активизируются при просмотре тех или иных данных. В результате было определено, что делает модели «злыми» или «подхалимами», а также способствует проявлению «галлюцинаций» (выдача выдуманных данных на просьбу представить факты).
По словам Линдси, в компании также научились удалять «личность» моделей после завершения обучения. При этом «личность» у ботов может меняться и в ходе контактов с человек.
Напомним, Anthropic была создана бывшими сотрудниками американской компании OpenAI, которая занимается разработками в сфере искусственного интеллекта и создала нейросеть ChatGPT. Anthropic разработала собственную модель Claude.