Dark mode


Темная тема
A+ | Сброс | A-
Нейросети оказались беззащитны перед психологическими манипуляциями
Нейросети оказались беззащитны перед психологическими манипуляциями
Исследователи выяснили, что даже школьник может «взломать» нейросеть, если имеет некоторые знания в психологии. Это нужно понимать тем, кто решил на работе заменить людей на «цифровых помощников», то есть на ботов, считает IT-редакция ИА Красная Весна.

Новостной сайт The Verge 1 сентября сообщил, что сотрудники Пенсильванского университета легко обошли внутренние запреты чат-бота GPT-4o Mini с помощью психологических уловок и получили от него информацию, которую ему был запрещено выдавать. Они использовали советы по манипуляции людьми из книги профессора Роберта Чалдини «Влияние: психология убеждения».

Если модель изначально выдавала информацию, как синтезировать запрещенное вещество, или выполняла просьбу обругать пользователя только в 1% запросов, то лесть и заявления, что все нейросети это делают на порядок увеличивало число положительных ответов. Но 100% результат давал «принцип приверженности», например, если начать с просьбы помочь синтезировать ванилин, а потом переходить к чему-то запрещенному.

Получается, что даже школьник, прочитавший книгу, может манипулировать нейросетью. С человеком такой фокус не пройдет. И тут проблема не столько в том, что человек может получить информацию, которую запрещено распространять, это можно сделать и через обычный браузер. Получается, что боты легко отходят от запретов, заложенных даже их «отцами»-разработчиками.

Из этого следует, что опасно менять людей на ИИ-агентов и прочих цифровых помощников. Их исполнительность сильно преувеличена. Какую бы строгую инструкцию им не давали, они будут от нее отходить. Их проще обмануть, чем человека. И этим, конечно, будут пользоваться люди.

Эйфория от нейростей пройдет, и тогда, скорее всего, будет откат: ботов начнут менять обратно на людей. Но до этих пор мы рискуем получить еще много неприятностей, мягко говоря.

Еще новости от: rossaprimavera.ru