SEO: Легенды и мифы российских оптимизаторов

Сергей Людкевич

Вступление

В среде русскоязычных оптимизаторов к настоящему времени скопилось определенное количество принимаемых на веру утверждений, которые при детальном рассмотрении оказываются либо ошибочными, либо настоятельно требующими документального подтверждения. Большинство подобных утверждений построено на основе устаревших данных либо основывается на некорректно интерпретированных результатах наблюдений за поисковой выдачей. Некоторые утверждения основываются на интуитивных ощущениях отдельных оптимизаторов. Несмотря на кажущуюся очевидной необходимость их проверки, эти утверждения передаются из уст в уста и с легкостью принимаются на веру новичками, как аксиома, становясь своеобразными легендами и мифами российской оптимизации. Многие из этих мифов налагаю существенный отпечаток на методы работы многих SEO-специалистов.

Так как поисковая система Яндекс обрабатывает больше половины всех русскоязычных запросов и является полем деятельности абсолютно всех российских оптимизаторов (а, для многих из них, и единственным), то подавляющее большинство мифов связано с ней.

В данном докладе я постараюсь рассмотреть наиболее распространенные из них.

Миф первый

Оптимальная концентрация (плотность) ключевого слова в тексте документа должна составлять 3-7% (5-6%)

Оставим в стороне количественные показатели этого утверждения и сосредоточим своё внимание самом понятии концентрации ключевого слова, как критерии оценки. В данном мифе под понятием концентрации ключевого слова подразумевается его внутри-документная частота, упоминаемая в литературе по Information Retrieval (IR) как term trequency (TF) , представляющая собой число вхождений этого ключевого слова в текст документа, деленная на общее количество слов в документе. Действительно, внутри-документная частота - одно из ключевых понятий, использующихся при определении релевантности документа запросу. Обратившись к документу «Некоторые аспекты полнотекстового поиска и ранжирования в Яндекс» (http://company.yandex.ru/articles/romip2004.xml), в котором описываются основные принципы определения текстовой составляющей релевантности документа запросу, рассмотрим справедливость данного утверждения на примере Яндекса.

Мы можем убедиться, что, во-первых, вычисление внутри-документной частоты в Яндексе производится только по релевантным пассажам. Под пассажем подразумевается фрагмент текста ограниченного размера (как правило, пассажами являются отдельные предложения). Причем, пассажи, которые содержат слова из запроса, могут быть признаны нерелевантными, если они не удовлетворят некоторым критериям. Получается, что некоторые части документа, содержащие ключевые слова, могут вообще не участвовать в определении релевантности конкретному запросу, и нам априори не известно, какие пассажи с вхождением ключевых слов из запроса будут отброшены, как нерелевантные.

Во-вторых, при определении релевантности документа многословному запросу учитываются расстояния до всех остальных слов из запроса, попавших в релевантный пассаж.

В-третьих, в Яндексе используется препроцессинг запроса (так называемая «переколдовка»), в результате которого различные запросы преобразуются совершенно по-разному. Причем, препроцессинг может применяться даже для некоторых однословных запросов, в результате чего, например, может отдаваться предпочтение определенным словоформам.

И, наконец, в-четвертых, учитывается форматирование текста, т.е. вхождение слов в определенные фрагменты текста, такие как заголовок (тег title), подзаголовки (теги <h1> и т.д.), жирный шрифт (тег <b>) и т.п.

Всего этого достаточно, чтобы сделать вывод, что утверждение, используемое в данном мифе, совершенно бесполезно для большинства случаев.

Постараемся сузить задачу и поставить ее так, чтобы минимизировать влияние большинства этих факторов. Допустим, что препроцессинг оставил все слова в запросе равноправными, все они встречаются в нашем документе каждый раз строго в том же порядке и на таком же расстоянии друг от друга, как и в поисковой фразе, и все пассажи, куда они входят, будут признаны релевантными, а форматированием текста можно пренебречь. Как самый простой вариант рассмотрим запрос, состоящий из одного слова. Можем ли мы хотя бы в этом частном случае применить понятие идеальной частоты? Вес документа по отношению к запросу определяется в общем случае, как сумма контрастностей слов запроса в документе. Контрастность (в литературе по IR обозначаемая как TF*IDF ) есть не что иное, как внутри-документная частота слова ( TF ), взвешенная с учетом частоты встречаемости документов с упоминанием этого слова ( IDF ) во всей коллекции документов (или в некоей эталонной коллекции). Таким образом, в первом приближении получаем, что чем выше внутри-документная частота конкретного термина, т.е. чем большее число раз он упоминается в тексте, тем выше в конечном итоге должен быть вес этого документа по отношению к запросу. В алгоритмах поисковых машин при вычислении контрастности, как правило, внутри-документная частота нормируется каким-либо образом. Например, по внутри-документной частоте самого частотного термина из встречающихся в документе или по размеру документа. В итоге получается, что для достижения максимального веса документа нам надо максимизировать не само значение внутри-документной частоты термина, а значение функции нормирования. В этом случае абсолютное значение частоты уже не будет играть роли, а будет играть роль ее зависимость от той величины, по которой производилась нормировка. Простейшей функцией нормирования по длине документа и является та самая концентрация, понятие которой используется в данном мифе, то есть, отношение числа вхождений этого ключевого слова в текст документа к общему количеству слов в документе. При ее использовании получаем, что чем она выше, тем документ релевантнее, то есть оптимальная плотность в этом случае равна 100%! Однако реальные функции нормирования, использующиеся в алгоритмах поисковых машин, гораздо сложнее. И получается, что для определения оптимальной концентрации нам надо знать функцию нормирования и постараться установить прямую зависимость между значением этой функции и концентрацией термина. Но далеко не факт, что мы вообще сможем это сделать. Например, если нормирование происходит не по длине документа, а, например, по самому частотному термину, то понятие оптимальной концентрации вообще теряет смысл.

Также в ситуацию могут вмешаться различные модули подавления поискового спама, реализованные поисковыми машинами. Так, из числа релевантных могут исключаться пассажи, содержащие ключевое слово, но подозреваемые в наличии поискового спама, например, если ключевое слово в них встречается несколько раз подряд. Или может быть наложено ограничение на количество учитываемых релевантных пассажей.

В общем, из всего вышесказанного можно сделать вывод, что установить универсальный рецепт оптимальной концентрации для произвольно взятого термина в любом документе, не принимая во внимание множество других факторов, как гласит данный миф, - невозможно. Её можно рассматривать только в тесной взаимосвязи целого ряда параметров, что представляет собой сложную задачу многокритериальной оптимизации. Которая, причем, далеко не в каждом случае имеет решение.

Что же касается практики, то, по большому счету, современные реалии поискового продвижения в Яндексе таковы, что внутри-документная частота слов запроса не является серьезно значимым фактором. Как правило, достаточно точного вхождения поисковой фразы в текст документа (а еще лучше - дополнительное его вхождение в тег title), чтобы закрыть проблему текстовой релевантности. Все другие вхождения слов из поисковой фразы целесообразно оценивать с точки зрения читабельности текста для пользователя. Если есть возможность употребления ключевых слов без ущерба читабельности и юзабилити - замечательно. На практике дальнейшее повышение релевантности документа запросу достигается за счет внешних факторов - ранга документа и ссылочного ранжирования. Так, для низкочастотных запросов основное значение играет точность вхождения фразы и ранг документа (что зачастую достигается грамотной внутренней перелинковкой страниц сайта), а для высокочастотных бал правит ссылочное ранжирование.

Миф второй

При ранжировании имеет значение близость ключевого слова (фразы) к началу документа

Вообще, теоретически близость конкретного пассажа к началу документа может являться одним из факторов влияющим на вес этого пассажа. Но, судя по всему, в алгоритме ранжирования Яндекса такого правила нет. Во всяком случае, эксперименты этого не подтверждают. Единственное, может иметь место лимит на индексируемый размер документа. То есть то что, оказалось за пределами лимитируемой зоны - просто не индексируется, а, значит, и не учитывается при ранжировании.

Миф третий

При ранжировании имеют значение концентрация ключевого слова (фразы) в теге title и его близость к началу тега

Поисковые машины рассматривают текст, находящийся в теге title, как один из пассажей документа, имеющий, впрочем, больший вес по сравнению с другими пассажами. Но при ранжировании используется только лишь понятие внутри-документной частоты, но никак не частоты внутри конкретного пассажа. Также близость словопозиции к началу пассажа тоже не играет роли, так как учитывается лишь взаимное расположение слов из запроса по отношению друг к другу. Единственный заслуживающий внимания момент, связанный с позицией слова в теге title - это попадание его в ту часть тега, которая используется поисковой машиной для формирования пассажа. Определить индексируемую часть тега title можно с помощью несложных экспериментов. Для Яндекса, например, ею являются первые 15 слов тега.

Миф четвертый

При учете ссылочного ранжирования для документа-реципиента вклад отдельной ссылки зависит от плотности ключевого слова (фразы) в тексте ссылки и его близости к началу текста

Исходя из практических наблюдений, в Яндексе влияние текста ссылок на документ (ссылочное ранжирование) оценивается примерно следующим образом. Тексты всех ссылок на документ (или анкор-тексты) собираются в один документ (назовем его анкор-файл). На основании каждого анкор-текста в этом документе формируется отдельный пассаж (причем, текст конкретной ссылки может попасть в пассаж не полностью, например, он ограничен по числу слов), и этому пассажу, присваивается некий вес, зависящий от статического ранга страницы-донора. Если определенный пассаж уже есть в файле, то, вполне вероятно, что новый идентичный ему пассаж не добавляется, а просто его вес суммируется с весом находящегося в базе пассажа. Затем вычисляется вес этого документа по отношению к определенному поисковому запросу по методу, схожему с определением веса обычного документа по отношению к запросу, но не обязательно идентичному ему. И опять же, как и в рассматриваемом выше случае с тегом title, очень маловероятно, что при этом используется понятие частоты термина внутри пассажа. Имеется, конечно, весьма опосредованное влияние текста отдельной ссылки на внутри-документную частоту терминов, что в итоге, должно оказывать влияние на вес анкор-файла по отношению к этому термину, но это всё-таки совсем не то прямое влияние, которое подразумевается в этом мифе. Так же, как и в случае с тегом title, маловероятно, что близость словопозиции к началу пассажа играет роль, имеет значение лишь факт попадания конкретной словопозиции в пассаж. Некоторые правила формирования пассажей анкор-файла на основе текстов ссылок можно довольно точно установить экспериментальным путем. Так, например, в Яндексе имеет место лимит на количество слов из текста ссылки, используемых при формировании пассажа - не более 16. Есть и другие ограничения.

Миф пятый

Ссылки с одинаковыми текстами «склеиваются»

Под склейкой подразумевается уменьшение вклада текста ссылки в ссылочное ранжирование. Активно это предположение для Яндекса стало высказываться, когда тот внедрил фильтрацию нечетких дублей в выдаче ссылающихся документов. Однако, как показали исследования, именно эта фильтрация происходит непосредственно на этапе формирования выдачи и отношения к учету ссылок при ранжировании не имеет. Продолжая тему анкор-файла, затронутую в предыдущем разделе, нам важно понять, накладываются ли какие-то ограничения на суммарный вес идентичных пассажей, зависящие или не зависящие от их числа. В общем-то, идея подобного ограничения представляется вполне логичной, однако, по моему личному мнению, у нас слишком мало информации, чтобы уметь делать однозначный вывод при проставлении конкретной ссылки, какой текст лучше использовать - уникальный или уже имеющийся. Мы не знаем, существует ли порог числа идентичных пассажей, с которого начинаются ограничения, мы не знаем, статический он или динамический, и если он статический, то мы не знаем его величины, а если динамический, то от каких факторов и каким образом зависит его значение. Выходит, у нас нет данных, на основе которых мы можем выработать стратегию употребления анкор-текстов. А получение этих данных представляется мне очень и очень сложной экспериментальной задачей.

Миф шестой

Обмен ссылками служит поводом для санкций в любом случае

Принято считать, что обмен ссылками между сайтами неизбежно влечет к санкциям по отношению к участвующим в нем сайтам. Однако вот каким образом служба поддержки Яндекса в лице легендарного Платона Щукина комментирует подобную ситуацию:

«Если посредством обмена формируется полезная для пользователей коллекция ссылок по теме сайта, то нам нечего возразить. Если же посредством обмена формируется некая база ссылок, единственное назначение которой накрутить значение индекса, то с нашей стороны возможны санкции»

Поэтому если производится тематический обмен, ссылки на другие сайты оформляются единообразно и размещаются в структурированном каталоге, т.е. каталог действительно представляет потенциально полезный для пользователя качественно оформленный контент, то причин для беспокойства быть не должно.

Другой вопрос, накладываются ли какие-то ограничения на учет взаимных ссылок между двумя сайтами. Достоверно сказать можно только одно - полной блокировки таких ссылок в общем случае нет. Возможно, что в таком случае могут накладываться понижающие фильтры на учёт ссылочного ранжирования, однако достоверно подтвердить это очень сложно. Тем не менее, в оптимизаторской среде бытует мнение, что понижающие фильтры существуют, и поэтому широко распространен более трудоемкий метод трехстороннего обмена.

Миф седьмой

Через редиректные ссылки не передается ссылочное ранжирование

Под редиректными ссылками понимается ситуация, когда ссылка с документа-донора идет на промежуточный документ, который с откликом 301 или 302 редиректит на документ-реципиент. Действительно, это утверждение справедливо для большинства поисковых машин, поэтому мифом, который можно однозначно развенчать, оно является только в одном случае - если речь идет о поисковой машине Google. В ней текст таких ссылок, стоящих на документе-доноре, учитывается при ранжировании документа-реципиента. Это легко установить при помощи простейших экспериментов.

Миф восьмой

Количество посетителей, переходящих на документ со страницы выдачи результатов поиска, убывает пропорционально номеру его позиции на этой странице

Естественно, неоспоримым фактом является то, что пользователи обращают внимание на сниппеты, соответствующие тому или иному документу на странице результатов поиска, и руководствуются их содержанием при принятии решения перехода по той или иной ссылке. Однако даже если абстрагироваться от сниппетов, практика показывает, что данное правило оказывается несправедливым по отношению к документам, расположенным в самом низу страницы. Удивительно, но факт, что документ, располагающийся на самой нижней, 10-й позиции, получает больше кликов, нежели прочие документы, находящиеся в нижней половине страницы выдачи. Вероятно, это связано с тем, что пользователи имеют обыкновение прокручивать страницу с результатами до конца и инстинктивно их внимание цепляется за последний результат, расположенный на странице.

Миф девятый

Продвижение по высокочастотным запросам дает наилучший эффект

Действительно, существует ряд тематик, где львиную долю целевого трафика собирает относительно небольшое количество высокочастотников. Как правило, это касается коммерческих тем, связанных с покупкой штучных товаров (например, пластиковых окон) или оказания узкого спектра услуг (например, получение строительных лицензий). Однако, чем шире ассортимент товаров или услуг, предоставляемых на сайте, тем больше потенциальная целевая аудитория «размазывается» по семантическому ядру. Зачастую трафик с высокочастотных запросов составляет единицы, а то и доли процентов от общего потенциального трафика, который можно считать целевым для сайта. И как правило, чем меньше эта доля, тем менее ценным, как потенциальный потребитель товаров и услуг, предоставляемых сайтом, является посетитель, пришедший по высокочастотнику. Об этом красноречиво свидетельствует статистика заказов подобных сайтов. Тем не менее, в оптимизаторской практике вовсе не редки ситуации, когда крупные интернет-магазины с ассортиментом в сотни, а то и тысячи единиц наименований, продвигаются по весьма ограниченному набору высокочастотных запросов исключительно внешними факторами, в то время, когда грамотная оптимизация и перелинковка внутренних страниц способна дать ошеломляющий эффект по привлечению качественной целевой аудитории из поисковых машин.