Cree@rt Studio - полезно знать

Уникальный контент и синонимизация

В раздел

Новомодным веянием среди строителей сайтов-сателлитов является синонимизация контента сайта. К их услугам имеются десятки баз синонимов, сотни различных синонимизаторов, которые вроде как умеют генерировать уникальный и читабельный контент для конечного пользователя. Рассмотрим, как же работают программы для синонимизации контента и закон Зипфа (или закон Ципфа).

Чтобы понять, как в общем случае проверяется уникальность текста, надо иметь понятие о шинглах. Шингл – это фрагмент текста длиной в несколько слов (от трёх до восьми слов). Программа, которая определяет уникальность текста, разбивает проверяемый текст на шинглы и проверяет наличие таких же фрагментов текста (шинглов) в размещённых ранее документах в сети Интернет.

Уникальность проверяемого документа зависит от длины шингла. К примеру, если задать размер шингла в одно слово, то в Интернете всегда найдётся хотя бы один документ, в котором будет встречаться каждое слово, существующее в проверяемом документе – соответственно, и уникальность такого документа будет равна нулю. А если, например, создать выборку из девяти слов, то уникальность проверяемого контента резко возрастёт, ведь найти два документа, содержащих одинаковые фрагменты текста из девяти слов, довольно сложно.

Программы-антиплагиаты составляют шинглы по своим алгоритмам. Одним из таких правил является составление шингла внахлёст, т.е. каждый последующий шингл захватывает часть предыдущего. Существует большое количество сложных алгоритмов нарезки шинглов. Скажем, без очистки текста от стоп-слов и символов или, ноаборот, с очисткой текста от таковых. Суть первого алгоритма заключается в проверке исходного документа без внесения каких-либо изменений. При использовании второго алгоритма из текста убираются символы, а также слова, которые не несут никакой смысловой нагрузки (междометия, предлоги, союзы и т.д.).

Так что в техническом смысле создание уникального текста - просто разбивка, разрушение имеющихся шинглов. Практически все существующие сегодня синонимайзеры работают с контентом по одному и тому же базовому алгоритму - поиск и замены слов в тексте по базе синонимов. Результаты работы с текстами более-менее нормально написанных синонимайзеров зависят лишь от полноты и тематичности собранного словаря синонимов. И еще - от разумности его составления: хороший словарь синонимов - это не тот, который большой, а тот, который не коверкает словосочетания. Как утверждают авторы синонимизаторов, замена слов в тексте на синонимы разрушает шинглы и контент становится уникальным с точки зрения поисковых роботов. То, что тексты становятся не читаемым – их совершенно не смущает, поскольку, по их утверждениям, поисковые роботы сети Интернет не смогут это определить.

Но на самом деле любая современная поисковая система может запросто определить, что это: авторский уникальный контент, написанный полуграмотным пользователем, строгий научный труд или синонимизированный текст – причем все это определяется гораздо проще, чем разбиением текстов на шинглы и подсчетом числа совпавших шинглов, или иными методами выявления неуникального контента (например, пассажами).

В 1902 году родился George Kingsley Zipf (Ципф или Зипф). В последствии он получил хорошее образование и стал известным лингвистом и филологом, работая в Гарвардском университете. Необычайную известность ему принесло открытие закона, получившего потом его имя. Закон Зипфа (или Ципфа) - это эмпирическая закономерность распределения частоты слов в натуральном человеческом языке.

Законом Ципфа постулируется: если все слова естественного языка или достаточно длинного текста упорядочить по убыванию частоты их применения, то частота употребления слова N в этом перечне окажется обратно пропорциональной его порядковому номеру, так называемому рангу этого слова. То есть, второе по применяемости слово языка встречается примерно в 2 раза реже первого, третье - в 3 раза реже, чем первое, и так далее.

Кривые Зипфа выглядят как прямые линии, если их нарисовать на двойной логарифмической шкале. Простое и понятное описание лингвистических данных, подчиняющихся распределению Цыпфа, таково:

небольшое количество слов имеет очень высокий рейтинг
среднее количество слов имеет средний рейтинг частоты
огромное число слов обладает крайне низким рейтингом

На практике распределения Ципфа можно использовать для описания частоты употребления слов в естественном языке, на котором говорят и пишут люди:

в языке есть небольшое число слов, которые встречаются очень часто
есть достаточно большое количество слов, которые применяются часто
в языке изобилие слов, которые практически никогда не употребляются

Учитывает ли поисковик частоту употребления слов? Да - в панели управления для веб-мастеров Гугла или Яндекса вы можете посмотреть ключевые слова и распределение ключевых слов по частоте употребления на сайте. Поисковый робот отслеживают частоту использования слов по сайтам, а также какими словами ссылаются на сайт, и еще частоту запросов, по которым переходят посетители (так сказать, человеческая верификация их понимания естественности контента). Результат - описанное Зипфом ранжирование слов по частоте применения.

После того, как список ключевых слов для сайта собран, поисковый робот проверяет ключевики по КОРПУСАМ СЛОВ. Дело в том, что для каждой тематики существует усредненная закономерность по частоте применения тех или иных слов. Эти распределения рассчитываются заранее по гигантским корпусам слов. Если частотность ключевых слов на сайте или в отдельном документе заметно отличается от усредненного показателя по данному корпусу - то трастовость сайта будет понижена или он вообще попадет под фильтр.

Теперь давайте вспомним, как работают синонимизаторы контента. Они просто заменяют одно слово на другое, не задумываясь о частотности синонима. А как Вы думаете, какие вхождения слов чаще всего заменяются? Правильно, именно те, которые часто встречаются. А заменяются они синонимайзером на слова с менее выраженной частотностью. Таким образом частотность встречающихся слов становится не свойственной теме, и поисковые роботы Интернета могут вынести сайту предупреждение в виде снижение траста, выкидывания части страниц из основного индекса, или пессимизации в ранжировании по главным словам этого корпуса.

Таким образом, использование синонимизаторов текста, работающих с примитивными словарями – верная дорога к санкциям на сайт со стороны поисковых роботов. Выход – использовать синонимайзеры, заменяющих слова, основываясь на корпусах слов, и такие наработки есть в англоязычных высококонкурентных тематиках.

А как именно определяет тот же поисковый робот Google тематику сайта? Есть два очевидных факта, лежащих на поверхности, но о которых мало, кто из оптимизиторов задумывается. Во-первых, так называемый “каталог сайтов Гугла” – это слепок DMOZ-каталога. Во-вторых, сайты из каталога DMOZ являются более трастовыми.

Отсюда следует вывод: точное определение тематики сайта Google перекладывает на редакторов каталога DMOZ. Действительно, ручная модерация сайтов более точна, чем любые алгоритмы, потому и сайтам, включенным в каталог DMOZ, присваивается больший траст.

Предварительное же определение тематики сайта поисковие роботы производят по тем же частотным словарям, путем расчета пересечений множеств слов из тематических корпусов и найденных на сайте. Однако такое определение тематики может быть не совсем точным, потому и уровень траста у таких сайтов не высокий.



Далее

На правах рекламы

статьи и ссылки:          

Новости

21/05/2016
в Эмиратах дома уже печатают на принтерах

Далее...



21/08/2015
девушка для программиста

Далее...



10/08/2015
о новом виде интернет-мошенничества!

Далее...




ЧТО ТАКОЕ САЙТ И С ЧЕМ ЕГО ЕДЯТ...

Многие, даже полностью осознав необходимости создания сайта для своих нужд, всё еще плохо представляют себе, что это такое и на какие "подводные камни" им придётся натолкнуться...
Кратко и доступно мы постараемся объяснить: что такое сайт, зачем ему нужны домен и хостинг, обслуживание и администрирование, продвижение и развитие, анализ качества и статистики, способы монетизации и многое другое...

Далее

Дешевый хостинг


недорогой, многофункциональный,
современный, надежный, гибкий
хостинг с простым управлением.

Далее...


Главная | Сайты | Услуги | Новости | Литература | FAQ | Поиск | Контакты | Sitemap

Рейтинг@Mail.ru