Распознавание текста ИИ: человеческие "отпечатки" стиля

Эксперты из Северо-Восточного университета разработали инновационный инструмент для выявления текстов, созданных искусственным интеллектом, опираясь на уникальные особенности человеческого письма. В отличие от традиционных методов, требующих значительных вычислительных ресурсов, этот новый подход использует 68 стилометрических признаков, или "отпечатков письма", делающих почерк каждого человека неповторимым.

nn

"Каждый человек обладает своим отличительным стилем письма, как и своей манерой речи", – отмечает Сохни Раис, аспирантка и исследователь проекта. "Нам достаточно лишь уловить характерные закономерности в стиле письма, чтобы отличить человеческий текст от сгенерированного ИИ".

nn

Существующие сервисы для обнаружения ИИ-текстов, такие как ZeroGPT и Originality, полагаются на сложные нейросетевые модели, анализирующие текст на уровне каждой буквы, слова и фразы. Однако, по мнению исследователей из Северо-Восточного университета, такой глубокий анализ не всегда необходим. Разработанный ими инструмент, который они называют "легковесным", способен работать на обычном ноутбуке и демонстрирует точность до 97%, при этом требуя в 20-100 раз меньше вычислительной мощности по сравнению с существующими решениями.

nn

"Наше решение отличается тем, что оно требует значительно меньше вычислительных ресурсов для выполнения той же задачи", – говорит Сергей Айтян, профессор инженерной программы университета. Преимущество такого "легковесного" подхода заключается и в безопасности: инструмент может быть установлен локально на ноутбуке пользователя, что гарантирует конфиденциальность данных. Это особенно важно для тех, кто работает с секретной информацией, или для преподавателей, желающих проверять работы студентов на плагиат.

nn

"Легковесный" подход фокусируется на таких характеристиках, как сложность предложений и разнообразие словарного запаса. В то время как ИИ-модели часто генерируют текст с одинаковым уровнем сложности, люди естественным образом варьируют стиль в зависимости от контекста – от неформального сообщения другу до официального письма начальнику. Раис приводит пример: "Мы можем написать 'счастлив', затем 'рад', затем 'доволен'. ИИ же часто повторяет одни и те же слова, даже зная синонимы".

nn

Инструмент также анализирует расстояние между связанными словами в предложении. Например, в предложении "кот, которого я видел вчера, был рыжим", подлежащее (кот) и сказуемое (был) разделены пятью словами. ИИ, как правило, поддерживает постоянное расстояние в два-три слова между ними.

nn

"Это похоже на измерение жизненно важных показателей у врача", – поясняет Раис. "Вместо того чтобы проводить все возможные тесты, мы измеряем ключевые индикаторы, такие как температура, артериальное давление и пульс, которые дают нам необходимую информацию".

nn

Разработка методов обнаружения ИИ-текстов – это непрерывный процесс. "По мере того как люди разрабатывали технологию для генерации ИИ-текста, появились и технологии для его обнаружения. А вскоре после этого появились так называемые алгоритмы гуманизации, чтобы сделать ИИ-текст более естественным. Это постоянная борьба", – заключает Айтян.

Комментарии

Комментариев пока нет.