AI-тексты: почему их сложно распознать?

В современном мире возникает все больше вопросов, связанных с текстами, созданными искусственным интеллектом. Преподаватели хотят быть уверены, что студенческие работы отражают их собственные знания, а потребители — что рекламные материалы написаны человеком, а не машиной. Однако, несмотря на простоту формулировки, надежное определение авторства текста остается сложной задачей.

Разработка правил для регулирования использования контента, сгенерированного ИИ, — задача относительно простая. Гораздо сложнее обеспечить их соблюдение, что напрямую зависит от возможности надежно выявлять тексты, созданные искусственным интеллектом.

Существуют исследования, посвященные тому, насколько хорошо люди способны распознавать тексты, написанные ИИ. Например, было показано, что люди, активно использующие инструменты для генерации текста, лучше справляются с этой задачей. В контролируемых условиях даже группа экспертов-людей может превзойти автоматизированные инструменты. Однако такой уровень экспертизы не является повсеместным, а индивидуальная оценка может быть непоследовательной. Поэтому организации, которым требуется единообразие в масштабе, полагаются на автоматические детекторы.

Принцип работы детекторов ИИ-текстов

Базовый принцип работы детекторов ИИ-текстов легко описать. Берется фрагмент текста, авторство которого необходимо определить, и применяется детектор, часто представляющий собой саму систему ИИ. Этот инструмент анализирует текст и выдает оценку, как правило, в виде вероятности, указывающей на то, насколько вероятно, что текст был сгенерирован ИИ. Полученная оценка используется для принятия дальнейших решений, например, о применении санкций за нарушение правил.

Однако за этим простым описанием скрывается значительная сложность. Неявно предполагаются определенные условия, которые необходимо прояснить. Известно ли, какие именно инструменты ИИ могли использоваться для создания текста? Какой доступ к ним имеется? Можно ли запускать их самостоятельно или изучать их внутреннюю работу? Каков объем текста? Имеется ли один фрагмент или собрание текстов, накопленных за определенный период?

Возможности и ограничения инструментов для обнаружения ИИ-текстов напрямую зависят от ответов на эти вопросы. Существует и дополнительный аспект, имеющий особое значение: были ли в тексте, созданном системой ИИ, намеренно внедрены специальные маркеры для облегчения последующего обнаружения?

Эти маркеры известны как водяные знаки. Текст с водяными знаками выглядит как обычный, но маркеры внедрены таким образом, что не бросаются в глаза при обычном просмотре. Однако обладатель соответствующего ключа может проверить наличие этих маркеров и подтвердить, что текст был сгенерирован системой ИИ с использованием водяных знаков. Этот метод, однако, требует сотрудничества от разработчиков ИИ и не всегда доступен.

Как работают инструменты детектирования ИИ-текстов

Один из очевидных подходов — использовать сам ИИ для обнаружения текстов, написанных ИИ. Идея проста: собирается большая база данных (корпус) примеров текстов, помеченных как написанные человеком или сгенерированные ИИ, а затем обучается модель для различения этих двух категорий. По сути, детектирование ИИ-текстов рассматривается как стандартная задача классификации, схожая по принципу с фильтрацией спама. Обученный детектор анализирует новый текст и предсказывает, к какой из ранее увиденных категорий (тексты, сгенерированные ИИ, или тексты, написанные человеком) он больше относится.

Метод, основанный на обучении, может работать даже при отсутствии информации о том, какие именно инструменты ИИ могли быть использованы для генерации текста. Основное требование — достаточное разнообразие обучающего корпуса, включающего выходные данные от широкого спектра систем ИИ.

Однако если есть доступ к интересующим системам ИИ, становится возможным другой подход. Эта стратегия не опирается на сбор больших наборов данных с метками или обучение отдельного детектора. Вместо этого она ищет статистические сигналы в тексте, часто связанные с тем, как определенные модели ИИ генерируют язык, для оценки вероятности того, что текст был создан ИИ. Например, некоторые методы анализируют вероятность, которую модель ИИ присваивает фрагменту текста. Если модель присваивает необычно высокую вероятность определенной последовательности слов, это может сигнализировать о том, что текст был фактически сгенерирован этой моделью.

Наконец, в случае текстов, сгенерированных системой ИИ с использованием водяных знаков, задача сводится от детектирования к верификации. Используя секретный ключ, предоставленный поставщиком ИИ, инструмент верификации может оценить, соответствует ли текст генерации системой ИИ с водяными знаками. Этот подход опирается на информацию, недоступную только по самому тексту, а не на выводы, сделанные из него.

Ограничения детекторских инструментов

Каждый тип инструментов имеет свои ограничения, что затрудняет определение явного лидера. Детекторы, основанные на обучении, чувствительны к тому, насколько новый текст похож на данные, на которых они обучались. Их точность снижается, когда текст существенно отличается от обучающего корпуса, который может быстро устаревать по мере выхода новых моделей ИИ. Постоянное пополнение данными и переобучение детекторов требует значительных затрат, и детекторы неизбежно отстают от систем, которые они призваны идентифицировать.

Статистические методы сталкиваются с другим набором ограничений. Многие из них основаны на предположениях о том, как конкретные модели ИИ генерируют текст, или на доступе к распределениям вероятностей этих моделей. Когда модели являются проприетарными, часто обновляются или просто неизвестны, эти предположения становятся неверными. В результате методы, хорошо работающие в контролируемых условиях, могут стать ненадежными или неприменимыми в реальном мире.

Водяные знаки смещают задачу с детектирования на верификацию, но вводят свои зависимости. Они требуют сотрудничества от поставщиков ИИ и применимы только к текстам, сгенерированным с включенными водяными знаками.

В более широком смысле, детектирование ИИ-текстов является частью эскалационной гонки вооружений. Детекторные инструменты должны быть общедоступными, чтобы быть полезными, но такая же прозрачность способствует и уклонению. По мере того как генераторы ИИ становятся более мощными, а методы уклонения — более изощренными, детекторы вряд ли получат долгосрочное преимущество.

Суровая реальность

Проблема детектирования ИИ-текстов проста в постановке, но трудна для надежного решения. Организации, имеющие правила, регулирующие использование текстов, написанных ИИ, не могут полагаться только на детекторы для их обеспечения.

По мере адаптации общества к генеративному ИИ, мы, вероятно, будем уточнять нормы, касающиеся допустимого использования текстов, сгенерированных ИИ, и совершенствовать методы детектирования. Но в конечном итоге нам придется научиться жить с тем фактом, что такие инструменты никогда не будут идеальными.

Комментарии

Комментариев пока нет.