ИИ пишет иначе: исследование раскрывает тайны стиля

Новое исследование, проведенное Университетским колледжем Корка (UCC), выявило, что тексты, созданные искусственным интеллектом, обладают отличительными стилистическими особенностями, которые позволяют отличить их от человеческого письма. Работа впервые применила методы литературной стилеметрии для анализа сравнения стилей письма людей и больших языковых моделей, таких как ChatGPT.

Ученые обнаружили, что, несмотря на способность ИИ генерировать гладкие и грамотные тексты, их стиль остается однообразным и ограниченным. Человеческое письмо, напротив, демонстрирует значительно более широкий стилистический диапазон, формируемый индивидуальным голосом, творческим замыслом и личным опытом автора.

Результаты исследования, опубликованные в журнале Humanities and Social Sciences Communications, вносят вклад в дискуссию о будущем творческой деятельности в эпоху, когда генеративный ИИ трансформирует сферы образования, издательского дела и искусства.

Различия в стиле: человек против ИИ

Исследование под руководством доктора Джеймса О'Салливана из Школы английского языка и цифровых гуманитарных наук UCC стало первым систематическим применением методов литературной стилеметрии для оценки стилистического сходства или различия между людьми и ИИ. Работа предоставила одну из наиболее детальных на сегодняшний день оценок того, как большие языковые модели подходят к повествованию иначе, чем люди.

Доктор О'Салливан проанализировал сотни коротких рассказов, написанных людьми, и тексты, сгенерированные системами ИИ. Изучая тонкие языковые маркеры, включая частоту употребления распространенных слов, он выявил четкие и последовательные стилистические различия.

Анализ показал явное стилистическое разделение между человеческим письмом и текстами, созданными большими языковыми моделями. Системы ИИ, такие как GPT-3.5, GPT-4 и Llama 70B, формируют плотные группы, каждая из которых отражает унифицированные паттерны, характерные для определенной модели. В отличие от них, человеческие тексты демонстрируют гораздо большую вариативность и индивидуальность.

«Даже когда ChatGPT пытается звучать как человек, его письмо все равно несет в себе обнаруживаемый отпечаток»

GPT-4 пишет даже более последовательно, чем GPT-3.5, но обе модели остаются отличными от человеческой работы. Хотя GPT-3.5 иногда приближается к человеческому стилю, такие моменты редки. Во всех визуализациях — как кластеризации, так и многомерном шкалировании — наблюдается одна и та же картина: модели ИИ производят компактные, предсказуемые стили, в то время как человеческое письмо остается более разнообразным и идиосинкратическим, отражая индивидуальность и творческие намерения.

«Хотя тексты, сгенерированные ИИ, часто отточены и последовательны, они, как правило, демонстрируют большую однородность в выборе слов и ритме. В отличие от этого, человеческое письмо остается более разнообразным и идиосинкратическим, отражая индивидуальные привычки, предпочтения и творческие выборы», — отметил доктор О'Салливан.

«Даже когда ChatGPT пытается звучать как человек, его письмо все равно несет в себе обнаруживаемый отпечаток, что позволяет предположить, что компьютеры и люди пока пишут не совсем в одном стиле», — пояснил доктор О'Салливан.

Что стилеметрия может и чего не может сказать о письме ИИ

Исследователи предостерегают от использования стилеметрии в качестве инструмента обнаружения ИИ в образовании, но подчеркивают ее ценность для понимания того, как человеческое выражение отличается от алгоритмической генерации, предлагая новые представления о том, что делает письмо узнаваемо человеческим.

«Стилеметрия может выявлять общие закономерности в больших массивах текстов, но она не подходит для определения авторства в образовании. Письмо студентов меняется от задачи к задаче и формируется под влиянием контекста, поддержки и жизненного опыта, что делает стилеметрическое определение ненадежным и этически сомнительным в случаях академической добросовестности», — заявил доктор О'Салливан.

Исследование показывает, что даже самые передовые модели пока не способны писать творческую прозу, которая безупречно сливалась бы с человеческой работой. Полученные данные указывают на необходимость использования более широких наборов данных, новых промптов и тестирования с новыми моделями, а также на более внимательное рассмотрение этических и творческих вопросов, возникающих в связи с растущим использованием генеративного ИИ.

«Одно дело, когда большая языковая модель (LLM) надежно создает электронное письмо или сводный отчет; способность автоматизировать создание литературы вызывает глубокие этические и философские вопросы об аутентичности, оригинальности и самой природе авторства», — отметил доктор О'Салливан.

Профессор Джон Ф. Крайан, вице-президент по исследованиям и инновациям UCC, поздравил доктора Джеймса О'Салливана с этим своевременным исследованием, посвященным сравнению стилей письма людей и языковых платформ на базе ИИ. «Ошеломляющее расширение и влияние ИИ в нашей повседневной жизни является определяющей чертой XXI века. Это исследование является примером творческого, совместного и междисциплинарного характера исследований в UCC в рамках нашей концепции UCC Futures, в данном случае — областей UCC Futures — ИИ и анализа данных, а также Института будущих гуманитарных наук».