Как обнаружить плагиат ChatGPT и AI

Опубликовано: 2023-06-22

ChatGPT перевернул академический и деловой мир с ног на голову благодаря своей способности за считанные секунды создавать связные, хорошо написанные тексты практически на любую тему в мире.

Благодаря его замечательным способностям студенты всех уровней образования обращаются к чат-боту, а также к его конкурентам, таким как Bard , для написания сложных эссе, на выполнение которых в противном случае ушли бы часы.

Это положило начало глобальному разговору о новом явлении, часто называемом «плагиатом ChatGPT». В этом руководстве рассказывается об инструментах, которые предприятия и образовательные учреждения используют для обнаружения плагиата ChatGPT, опасностях мошенничества с ChatGPT, а также о том, считается ли вообще использование ChatGPT плагиатом.

Как обнаружить плагиат ChatGPT
Самые популярные средства проверки на плагиат AI и ChatGPT
Действительно ли работают средства проверки контента AI?
Является ли использование ChatGPT или Bard плагиатом?
Опасности мошенничества с ChatGPT
Занимается ли ChatGPT плагиатом?
Бард занимается плагиатом?
Другие инструменты ИИ занимаются плагиатом?
Должен ли я использовать ChatGPT для своих эссе или работы?

Как обнаружить плагиат ChatGPT

Чтобы обнаружить плагиат ChatGPT, вам понадобится средство проверки контента AI. Средства проверки контента с искусственным интеллектом сканируют текст, чтобы определить, были ли они созданы чат-ботом, таким как ChatGPT или Bard, или человеком. Однако, как мы расскажем позже, эти инструменты далеко не надежны.

Немного сложнее обнаружить плагиат, когда дело доходит до кода, который ChatGPT также может сгенерировать. Экосистема инструментов обнаружения ИИ для кода не совсем такая, как для контента.

Однако, если вы находитесь в университетской среде, например, и отправляете код, выходящий далеко за рамки вашего технического уровня, у вашего профессора или лектора могут возникнуть вполне обоснованные подозрения, что вы попросили ChatGPT помочь вам.

Обзор самых популярных инструментов проверки на плагиат AI и ChatGPT

С момента запуска ChatGPT в ноябре 2022 года многие компании и образовательные учреждения выпустили средства проверки контента на основе ИИ, которые утверждают, что способны различать искусственно сгенерированный контент и контент, созданный людьми. Теперь многие компании также используют чат-бота Google Bard, который использует другую языковую модель.

Тем не менее, предполагаемая точность даже самых авторитетных инструментов обнаружения контента ИИ вызывает ожесточенные споры, и судебные дела между студентами, ложно обвиненными в использовании контента ИИ и образования, уже материализовались.

Суть в следующем: ни один инструмент в этой области не является точным на 100%, но некоторые из них намного лучше других.

GPTZero

GPTZero — это популярный бесплатный инструмент обнаружения контента с использованием ИИ, который утверждает, что это «самый точный детектор ИИ для различных вариантов использования, проверенный несколькими независимыми источниками».

Однако еще в апреле студент-историк Калифорнийского университета в Дэвисе доказал, что GPTZero — инструмент обнаружения контента ИИ, используемый его профессором, — был неверным, когда пометил его эссе как созданное ИИ.

Мы протестировали GPTZero, попросив ChatGPT написать небольшой рассказ. GPTZero, к сожалению, не смог сказать, что контент был написан инструментом AI:

Оригинальность.ai

Originality.ai, безусловно, является одним из наиболее точных инструментов обнаружения контента AI, доступных в настоящее время.

Компания провела собственное исследование инструментов обнаружения контента ИИ в апреле этого года, в рамках которого она передала 600 искусственно сгенерированных и 600 созданных человеком блоков текста в свою собственную систему обнаружения контента, а также другие популярные инструменты, которые утверждают, что они делают то же самое. .

Как видно из приведенных ниже результатов, Originality.ai превзошел все инструменты, включенные в тест:

Единственным недостатком Originality.ai является то, что у него нет бесплатного плана, и вы даже не можете протестировать его бесплатно, как с другими приложениями, включенными в эту статью. это стоит 20 долларов за 2000 кредитов, что позволит вам проверить 200 000 слов.

Детектор контента с искусственным интеллектом Copyleaks

Copyleaks — это бесплатный детектор контента ИИ, который, как утверждается, способен различать копии, созданные человеком, и копии, созданные ИИ, с точностью 99,12%.

Copyleaks также сообщит вам, написаны ли определенные аспекты документа или отрывка искусственным интеллектом, даже если другие его части кажутся написанными человеком.

Copyleaks заявляет, что он способен обнаруживать контент, созданный ИИ, созданный «ChatGPT, GPT-4, GPT-3, Jasper и другими», и даже утверждает, что «после выхода новых моделей мы сможем автоматически обнаруживать его».

CopyLeaks стоит 8,33 доллара в месяц за 1200 кредитов (250 слов копии за кредит).

Однако в тесте, проведенном TechCrunch в феврале 2023 года, Copyleaks неправильно классифицировал различные типы копий, созданных ИИ, включая новостную статью, статью в энциклопедии и сопроводительное письмо, как созданные человеком.

Кроме того, исследование Originality.ai, упомянутое выше, показало, что оно было точным только в 14,50% случаев, что далеко от 99,12% заявленной CopyLeaks точности.

Однако, когда мы протестировали его, оказалось, что он смог определить, что введенный нами текст был сгенерирован ChatGPT:

Детектор ИИ Turnitin

Turnitin — американская компания по обнаружению плагиата, которую используют различные университеты для сканирования работ своих студентов. Turnitin предназначен для обнаружения всех видов плагиата, но в апреле сообщил, что уже некоторое время инвестирует в команду, ориентированную на ИИ.

Turnitin говорит, что он может «обнаруживать наличие записи ИИ с достоверностью 98% и частотой ложноположительных результатов менее одного процента в нашей контролируемой лабораторной среде».

Тем не менее, компания также заявляет, что контент, если он помечает часть контента как созданную ИИ, это следует рассматривать как «признак, а не обвинение». Истинная точность детектора ИИ Turnitin была оспорена Washington Post, а также другими источниками.

Программное обеспечение Turnitin для обнаружения контента AI в настоящее время является бесплатным, но компания сообщает в разделе часто задаваемых вопросов на своем веб-сайте, что в январе 2024 года они переходят на платную программу лицензирования, цена которой не указана.

Текстовый классификатор OpenAI

Не желая уступать сторонним средствам проверки контента ИИ, OpenAI сами выпустили программное обеспечение, предназначенное для классификации контента, созданного ИИ.

Вводимый документ или текст должен иметь длину более 1000 символов. После того, как вы введете свой документ, OpenAI почти мгновенно сообщит вам, насколько вероятно, что, по его мнению, он был создан людьми.

Я опубликовал отрывок из недавней статьи на Tech.co, написанной писателем, который, по справедливому мнению OpenAI, был «очень маловероятным» тем, что был написан ИИ.

В той же статье TechCrunch, на которую мы ссылались ранее, издание сообщает, что, по оценкам OpenAI, его текстовый классификатор пропускает 74% контента, созданного ИИ. Хорошо, что они так честны в этом вопросе — когда мы провели второй тест, используя короткий рассказ, сгенерированный ChatGPT, он не уловил тот факт, что он был сгенерирован ИИ:

Действительно ли работает обнаружение контента ИИ?

Ни один инструмент обнаружения контента AI не является надежным на 100% — наши тесты убедительно доказывают это.

Однако ни один из инструментов, которые мы сегодня обсудили, на самом деле не претендует на 100% точность, и очень немногие утверждают, что они абсолютно свободны от ложных срабатываний. Другие, такие как GPTZero, публикуют заявления об отказе от ответственности за свои результаты.

Ряд студентов университетов, обвиненных в использовании искусственного интеллекта для написания эссе, уже были вынуждены доказывать, что их работа была оригинальной.

В марте в Техасе профессор ложно завалил целый класс студентов, необоснованно обвинив их в использовании ChatGPT для написания эссе. Существует также коллекция отчетов — и исследований, подобных тому, что провела Originality.ai, — которые предполагают, что даже самые эффективные средства проверки на плагиат не так точны, как они утверждают.

Даже детектор содержания AI от Turnitin не является надежным. В недавнем относительно небольшом тесте, проведенном Washington Post, о котором мы говорили ранее, его точность не достигла 98%, которые, по их утверждениям, они могут произвести.

С другой стороны, Originality.ai, безусловно, является одним из самых надежных из доступных, и даже его технология обнаружения не всегда верна.

Кроме того, если ложные срабатывания существуют в любом качестве, у студентов всегда будет возможность заявить, что их работа оригинальна и просто была неправильно идентифицирована.

Является ли использование ChatGPT или Bard плагиатом?

Спорный вопрос, является ли ChatGPT вообще плагиатом. Oxford Languages определяет плагиат как «практику брать чужую работу или идеи и выдавать их за свои».

ChatGPT — это не человек, и он не просто воспроизводит работу и идеи других людей, когда генерирует ответ. Так что, по определению словаря, это не прямой плагиат.

Даже если бы он это делал, если бы вы были честны в отношении того, откуда он взялся (например, ChatGPT), возможно, это все равно не было бы плагиатом.

Тем не менее, некоторые школы и университеты имеют далеко идущие правила в отношении плагиата и рассматривают возможность использования чат-ботов для написания эссе как такового. Один студент Университета Фурмана не получил степень по философии в декабре после того, как использовал ChatGPT для написания своего эссе. В другом случае профессор Университета Северного Мичигана сообщил, что поймал двух студентов, использующих чат-бот для написания эссе для своего класса.

Использование ChatGPT для создания эссе, а затем выдача его за вашу собственную работу, возможно, лучше описать как «мошенничество» и определенно «нечестно».

Весь смысл написания эссе состоит в том, чтобы показать, что вы способны генерировать оригинальные мысли, понимать соответствующие концепции, тщательно рассматривать противоречивые аргументы, ясно представлять информацию и цитировать свои источники.

Существует очень небольшая разница между использованием ChatGPT таким образом и оплатой другому студенту за написание вашего эссе за вас — что, конечно же, мошенничество.

Что касается Google Bard, то здесь ответ немного сложнее. Та же логика, что и выше, применима к Bard, как и к ChatGPT, но Bard был омрачен обвинениями в плагиате и неправильном цитировании вещей, которые он извлекает из Интернета, в отличие от ChatGPT. Таким образом, использование Bard может привести к непреднамеренному плагиату из других источников ( подробнее об этом ниже ).

Опасности мошенничества с ChatGPT

Кристофер Хауэлл, адъюнкт-профессор Университета Элона, недавно попросил группу студентов использовать ChatGPT для критического задания, а затем оценивать эссе, подготовленные для них.

Он сообщил в длинной ветке в Твиттере (первая часть которой изображена ниже), что все 63 участвовавших студента обнаружили в своих заданиях ту или иную форму «галлюцинации», включая фальшивые цитаты, фальшивые и неверно истолкованные источники.

Занимается ли ChatGPT плагиатом в своих ответах?

Нет — ChatGPT не берет информацию из других источников и просто смешивает ее, предложение за предложением. Это неправильное понимание того, как работают генеративные предварительно обученные трансформеры.

ChatGPT — или, точнее, языковая модель GPT — обучается на огромном наборе данных документов, материалах веб-сайтов и другом тексте.

Он использует алгоритмы для поиска лингвистических последовательностей и шаблонов в своих наборах данных. Затем можно генерировать абзацы, предложения и слова на основе того, что языковая модель узнала о языке из последовательностей в этих наборах данных.

Вот почему, если вы задаете ChatGPT один и тот же вопрос одновременно с двух разных устройств, его ответы обычно очень похожи, но все же будут различия, а иногда и совершенно разные ответы.

Занимается ли Bard плагиатом в своих ответах?

Крупнейший конкурент ChatGPT, Google Bard, с момента своего запуска имел значительно больше проблем с плагиатом контента, чем его более популярный аналог. Технологический веб-сайт Tom's Hardware обнаружил, что Bard заимствовал одну из своих статей, а затем начал извиняться, когда один из его сотрудников назвал это.

Совсем недавно, в мае 2023 года, PlagiarismCheck сообщил Yahoo News, что они создали 35 фрагментов текста с помощью Bard и обнаружили, что в 25 из них содержится более 5% плагиата, просто перефразируя существующий контент, уже опубликованный в Интернете.

Одно большое различие между Bard и ChatGPT, которое, возможно, может объяснить это, заключается в том, что Bard может искать ответы в Интернете, поэтому он, как правило, лучше справляется с вопросами, касающимися событий после 2021 года, с которыми ChatGPT борется. Однако это также означает, что он извлекает данные из источников менее оригинальным способом и чаще цитирует свои источники.

Эти примеры могут быть случайными, но полезно знать о рисках, если вы используете Bard для важной работы.

Другие инструменты ИИ занимаются плагиатом?

К сожалению, да — и некоторые компании уже опозорились, используя инструменты ИИ, которые плагиатят контент. Например, было обнаружено, что CNET — один из крупнейших в мире технологических сайтов — использует инструмент искусственного интеллекта для создания статей и совершенно не раскрывает информацию об этом. Было обнаружено, что около половины статей, опубликованных CNET с использованием ИИ, содержали неверную информацию.

Что еще хуже, Futurism, который начал расследование плагиата ИИ CNET, заявил, что «неправомерное поведение бота варьируется от дословного копирования до умеренных правок и значительных перефразировок, и все это без надлежащего указания оригинала».

Инструменты искусственного интеллекта, которые не генерируют уникальный оригинальный контент — будь то искусство или текст — могут стать плагиатом контента, который уже был опубликован в Интернете. Важно точно понимать, как работает языковая модель, которую использует ваш инструмент ИИ, а также иметь жесткий контроль над контентом, который он создает, иначе вы можете оказаться в том же положении, что и CNET.

Стоит ли использовать ChatGPT для эссе или работы?

Использование ChatGPT для эссе

Тот факт, что ChatGPT не просто извлекает ответы из других источников и смешивает предложения вместе, означает , что предприятия могут использовать ChatGPT для множества различных задач, не беспокоясь об авторских правах.

Но его внутренняя механика также означает, что он часто галлюцинирует и совершает ошибки. Это далеко-далеко от совершенства — и хотя заманчиво заставить ChatGPT написать эссе для университета или колледжа, мы бы не советовали этого делать.

Конкретные правила подачи заявок в каждом учебном заведении, конечно, будут немного отличаться, но весьма вероятно, что это уже считается «обманом» или плагиатом в вашем университете или школе. Кроме того, независимо от того, насколько они точны, образовательные учреждения используют детекторы контента ИИ, которые со временем будут улучшаться.

Использование ChatGPT на работе

Конечно, многие люди уже используют ChatGPT на работе — это оказывается полезным в самых разных отраслях и помогает работникам с самыми разными ролями экономить драгоценное время при выполнении повседневных задач.

Тем не менее, если вы используете ChatGPT на работе, мы рекомендуем сообщить об этом своему менеджеру или руководителю, особенно если вы используете его для важных действий, таких как написание отчетов для внешних заинтересованных сторон.

Мы также настоятельно рекомендуем тщательно редактировать и внимательно просматривать всю работу, которую вы используете для создания ChatGPT, Bard или любого другого инструмента искусственного интеллекта. Неразумно помещать конфиденциальную личную информацию или информацию о компании в любой чат-бот, поскольку не так много общедоступной информации о том, где хранятся эти чаты, или об инфраструктуре безопасности OpenAI.

Использование других инструментов искусственного интеллекта для эссе или работы

Конечно, Bard и ChatGPT — не единственные чат-боты с искусственным интеллектом. Тем не менее, мы бы не решились отказаться от поддержки каких-либо небольших инструментов ИИ, которые не подкреплены мощными языковыми моделями. Они не будут так хорошо обеспечены ресурсами, и вы вряд ли найдете их полезными, если поэкспериментируете с их использованием для работы.

Однако действуют те же правила: будьте откровенны со своим руководителем и получите согласие на их использование, не вводите конфиденциальные данные компании и всегда просматривайте полученные ответы.