Водность текста

Алексей Думчев
22 Июня 2015 г, 12:10
   18

В общей доле факторов ранжирования текстовые факторы занимают от 10 до 20% в различных поисковых системах. На фоне заявленных 800 факторов ранжирования (для Яндекс) цифра в 10-20% имеет существенное значение, но в среде «большинства» сео-специалистов текстовые факторы, а в частности статистические метрики качества текста не учитываются совсем или учитываются очень незначительно.

Одной из статистической метрикой качества текста является популярный параметр – водность/вода текста. То есть относительное количество слов в тексте, выраженное в процентном соотношении, которые не несут за собой смысловой окраски. Почему этот параметр так важен?

При обработке текстового документа, как правило, большинство поисковых машин отсекают из текста незначимые слова и фразы, для того чтобы не забивать память несущественными данными и не снижать скорость обработки документов. То есть эти слова поисковый робот увидит, но в отношении них никаких измерений проводиться не будет. Поэтому становится актуальным вопрос – как оценивать процент «воды в тексте»?

На данный вопрос уже несколько лет отвечают различные seo-сервисы: advego.ru, pr-cy.ru и ряд других сайтов. Но, по результатам проведенных нами исследований было выявлено, что сервисы по оценки водности текста в 15-30% случаев дают достаточно большую погрешность измерений. То есть тот показатель, который видит seo-оптимизатор, не является объективным, и Яндекс видит другое значение этого параметра. Откуда такой вывод?

Все стоп-слова и назначающие конструкции можно разделить на несколько категорий.

1.   Общие. Это обычные

  • предлоги;
  • союзы;
  • местоимения;
  • частицы;
  • междометия;
  • вводные конструкции;
  • цифры;
  • отдельно стоящие буквы.

Они являются стоп-словами при условии того, что они не являются значащими в тематике и не входят в состав запроса.

Пример: отрывок из произведения Пастернака о значении слова - Текст.

Существует метафорическое представление о тексте, как о лабиринте, в котором блуждают его читатели и исследователи, или спутанном клубке, который подлежит распутыванию. Не существует универсальной теории выхода из лабиринта или распутывания клубков, есть лишь некоторые эвристические принципы, которым бывает полезно следовать. Однако, когда вы приступаете к распутыванию клубка, у вас заранее не может быть гарантий, что вы его сумеете распутать до конца; равным образом, не сумев его распутать, вы не имеете права утверждать, что этот клубок является нераспутываемым в принципе

2. Ненормативная лексика. Если такая лексика не входит в состав запроса, то она является стоп-словом. Если есть в запросе, то документ учитывается по всем правилам обработки текста: подбираются синонимы, леммы к данным словам.

Всегда ли стоп-слова из группы «Общие» являются незначащими для поисковика?

1. Если стоп-слово входит в запрос, тогда оно не будет является стоп-словом при условии того, что употреблено в тексте совместно с другим словом из запроса.  Например, фраза «купить в Москве». Если предлог «в» употребляется в тексте так «заказать в Москве, недорого в Москве», то оно является значащим. Во всех других его проявлениях, оно будет просто стоп-словом, которые не учитывает Яндекс.

вода в тексте

2. Если для тематики важны цифры, то они также перестают быть стоп-словами (даже если цифры не введены в запрос). Например, фраза «толщина профнастила». По коллекции документов по данному запросу ясно, что цифры играют для данного случая немаловажную роль.

цифры в тексте

Вывод: стоп-слова являются запросозависимой метрикой качества текста и не могут быть оценены однозначно без учета пользовательского запроса и коллекции других документов по данному запросу.

Статьи в тему:
seo-продвижение для начинающих
Коммерческие факторы ранжирования в Яндекс
7 рекомендаций по созданию нового сайта

А что вы думаете по этому поводу? Давайте обсудим в комментариях!

Понравилась статья? Получай свежие статьи первым по e-mail.
Подпишитесь на обновления:
Оцените статью:
Поделиться:
Популярное в блоге
подпишитесь на обновления
Больше полезных статей, кейсов и мануалов еще впереди. Подпишись на обновления, это бесплатно!
Мы в социальных сетях
Оставить заявку