logo search
08-12-2013_12-23-51 / Учебно-методическое пособие 5213

Технология проверки научных документов на заимствование

В сентябре 2005 годабыл организован российскийинтернет-проектАнтиплагиат(http://www.antiplagiat.ru/). Данный интернет-сервис впервые в России предлагает набор услуг, в совокупности реализующих технологию проверки текстовых документов на наличие заимствований из общедоступных сетевых источников.

Сервис представляет собой специализированную поисковую систему.

Технология проверки документов

Принцип действия механизма проверки текстовых документов на наличие заимствований, реализованного в системе, заключается во взаимодействии ее модулей, каждый из которых функционирует параллельно с другими и решает свою определенную задачу. Условно, процесс функционирования системы можно разбить на последовательные этапы, в рамках которых определенные модули выполняют определенные операции, хотя в реальности эти этапы могут также происходить либо в другом порядке, либо одновременно.

На первом этапе система собирает информацию из различных источников: загружает из Интернета и обрабатывает сайты, находящиеся в открытом доступе, базы научных статей и рефератов. Загруженные документы проходят процедуру фильтрации, основанную на уникальной технологии очистки текста, в результате которой отбрасывается бесполезная с точки зрения потенциального цитирования информация (это касается в первую очередь HTML-страниц с большим количеством рекламы, новостных заголовков, меню и так далее).

На следующем этапе каждый из полученных таким образом текстов определенным образом форматируется и заносится в системную базу данных. Кроме того, в общую базу текстов поступают документы, загруженные на проверку пользователем, если такая возможность была разрешена им во время процедуры загрузки.

Все пользовательские документы, загружаемые для проверки, ставятся в очередь на обработку и, благодаря использованию в аналитических модулях системы новаторских технологий и проведению качественной оптимизации, проверка документа, такого, как, например, реферат среднего размера, занимает всего несколько секунд.

Кроме того, система обладает высокой отказоустойчивостью, иллюстрируемой, к примеру, тем, что в случае возникновения при проверке документа нештатных ситуаций или сбоев, этот документ лишь переставляется в очереди на несколько минут назад и затем проверяется вновь.

После успешной проверки документа, пользователь получает доступ к отчету, в котором в наглядной форме представляются ее результаты. Структура отчета позволяет выделять в проверяемом тексте заимствованные части как по всем источникам, так и по их любому подмножеству.