Нейросети оказались беззащитны перед психологическими манипуляциями
![Нейросети оказались беззащитны перед психологическими манипуляциями]()
Исследователи выяснили, что даже школьник может «взломать» нейросеть, если имеет некоторые знания в психологии. Это нужно понимать тем, кто решил на работе заменить людей на «цифровых помощников», то есть на ботов, считает IT-редакция ИА Красная Весна.
Новостной сайт The Verge 1 сентября сообщил, что сотрудники Пенсильванского университета легко обошли внутренние запреты чат-бота GPT-4o Mini с помощью психологических уловок и получили от него информацию, которую ему был запрещено выдавать. Они использовали советы по манипуляции людьми из книги профессора Роберта Чалдини «Влияние: психология убеждения».
Если модель изначально выдавала информацию, как синтезировать запрещенное вещество, или выполняла просьбу обругать пользователя только в 1% запросов, то лесть и заявления, что все нейросети это делают на порядок увеличивало число положительных ответов. Но 100% результат давал «принцип приверженности», например, если начать с просьбы помочь синтезировать ванилин, а потом переходить к чему-то запрещенному.
Получается, что даже школьник, прочитавший книгу, может манипулировать нейросетью. С человеком такой фокус не пройдет. И тут проблема не столько в том, что человек может получить информацию, которую запрещено распространять, это можно сделать и через обычный браузер. Получается, что боты легко отходят от запретов, заложенных даже их «отцами»-разработчиками.
Из этого следует, что опасно менять людей на ИИ-агентов и прочих цифровых помощников. Их исполнительность сильно преувеличена. Какую бы строгую инструкцию им не давали, они будут от нее отходить. Их проще обмануть, чем человека. И этим, конечно, будут пользоваться люди.
Эйфория от нейростей пройдет, и тогда, скорее всего, будет откат: ботов начнут менять обратно на людей. Но до этих пор мы рискуем получить еще много неприятностей, мягко говоря.

Исследователи выяснили, что даже школьник может «взломать» нейросеть, если имеет некоторые знания в психологии. Это нужно понимать тем, кто решил на работе заменить людей на «цифровых помощников», то есть на ботов, считает IT-редакция ИА Красная Весна.
Новостной сайт The Verge 1 сентября сообщил, что сотрудники Пенсильванского университета легко обошли внутренние запреты чат-бота GPT-4o Mini с помощью психологических уловок и получили от него информацию, которую ему был запрещено выдавать. Они использовали советы по манипуляции людьми из книги профессора Роберта Чалдини «Влияние: психология убеждения».
Если модель изначально выдавала информацию, как синтезировать запрещенное вещество, или выполняла просьбу обругать пользователя только в 1% запросов, то лесть и заявления, что все нейросети это делают на порядок увеличивало число положительных ответов. Но 100% результат давал «принцип приверженности», например, если начать с просьбы помочь синтезировать ванилин, а потом переходить к чему-то запрещенному.
Получается, что даже школьник, прочитавший книгу, может манипулировать нейросетью. С человеком такой фокус не пройдет. И тут проблема не столько в том, что человек может получить информацию, которую запрещено распространять, это можно сделать и через обычный браузер. Получается, что боты легко отходят от запретов, заложенных даже их «отцами»-разработчиками.
Из этого следует, что опасно менять людей на ИИ-агентов и прочих цифровых помощников. Их исполнительность сильно преувеличена. Какую бы строгую инструкцию им не давали, они будут от нее отходить. Их проще обмануть, чем человека. И этим, конечно, будут пользоваться люди.
Эйфория от нейростей пройдет, и тогда, скорее всего, будет откат: ботов начнут менять обратно на людей. Но до этих пор мы рискуем получить еще много неприятностей, мягко говоря.
Герман Клименко посоветовал не беспокоиться из-за «слежки» смартфонов и приложений за пользователями