Водность текста
В общей доле факторов ранжирования текстовые факторы занимают от 10 до 20% в различных поисковых системах. На фоне заявленных 800 факторов ранжирования (для Яндекс) цифра в 10-20% имеет существенное значение, но в среде «большинства» сео-специалистов текстовые факторы, а в частности статистические метрики качества текста не учитываются совсем или учитываются очень незначительно.
Одной из статистической метрикой качества текста является популярный параметр – водность/вода текста. То есть относительное количество слов в тексте, выраженное в процентном соотношении, которые не несут за собой смысловой окраски. Почему этот параметр так важен?
При обработке текстового документа, как правило, большинство поисковых машин отсекают из текста незначимые слова и фразы, для того чтобы не забивать память несущественными данными и не снижать скорость обработки документов. То есть эти слова поисковый робот увидит, но в отношении них никаких измерений проводиться не будет. Поэтому становится актуальным вопрос – как оценивать процент «воды в тексте»?
На данный вопрос уже несколько лет отвечают различные seo-сервисы: advego.ru, pr-cy.ru и ряд других сайтов. Но, по результатам проведенных нами исследований было выявлено, что сервисы по оценки водности текста в 15-30% случаев дают достаточно большую погрешность измерений. То есть тот показатель, который видит seo-оптимизатор, не является объективным, и Яндекс видит другое значение этого параметра. Откуда такой вывод?
Все стоп-слова и назначающие конструкции можно разделить на несколько категорий.
1. Общие. Это обычные
- предлоги;
- союзы;
- местоимения;
- частицы;
- междометия;
- вводные конструкции;
- цифры;
- отдельно стоящие буквы.
Они являются стоп-словами при условии того, что они не являются значащими в тематике и не входят в состав запроса.
Пример: отрывок из произведения Пастернака о значении слова - Текст.
Существует метафорическое представление о тексте, как о лабиринте, в котором блуждают его читатели и исследователи, или спутанном клубке, который подлежит распутыванию. Не существует универсальной теории выхода из лабиринта или распутывания клубков, есть лишь некоторые эвристические принципы, которым бывает полезно следовать. Однако, когда вы приступаете к распутыванию клубка, у вас заранее не может быть гарантий, что вы его сумеете распутать до конца; равным образом, не сумев его распутать, вы не имеете права утверждать, что этот клубок является нераспутываемым в принципе
2. Ненормативная лексика. Если такая лексика не входит в состав запроса, то она является стоп-словом. Если есть в запросе, то документ учитывается по всем правилам обработки текста: подбираются синонимы, леммы к данным словам.
Всегда ли стоп-слова из группы «Общие» являются незначащими для поисковика?
1. Если стоп-слово входит в запрос, тогда оно не будет является стоп-словом при условии того, что употреблено в тексте совместно с другим словом из запроса. Например, фраза «купить в Москве». Если предлог «в» употребляется в тексте так «заказать в Москве, недорого в Москве», то оно является значащим. Во всех других его проявлениях, оно будет просто стоп-словом, которые не учитывает Яндекс.
2. Если для тематики важны цифры, то они также перестают быть стоп-словами (даже если цифры не введены в запрос). Например, фраза «толщина профнастила». По коллекции документов по данному запросу ясно, что цифры играют для данного случая немаловажную роль.
Вывод: стоп-слова являются запросозависимой метрикой качества текста и не могут быть оценены однозначно без учета пользовательского запроса и коллекции других документов по данному запросу.
Статьи в тему:
seo-продвижение для начинающих
Коммерческие факторы ранжирования в Яндекс
7 рекомендаций по созданию нового сайта
А что вы думаете по этому поводу? Давайте обсудим в комментариях!