Прежде чем подробно рассматривать поведенческий фактор, будет полезным совершить небольшую экскурсию в историю развития поисковиков.
Во времена первых поисковиков интернет был лишь в самом начале своего развития, и, как следствие, содержал совсем крошечные (по сравнению с современностью) объёмы информации. Для того, чтобы организовать в нём поиск, было достаточно проиндексировать контент, и по поисковому запросу просто вывести по порядку документы, в которых слова из этого запроса встречались. Как вариант — отсортировать по размеру документа, дате создания или частоте включения слов(а) из запроса в документе. Это был поиск по контенту. Большинство поисковиков, включая Яндекс, начинало с этого. Так же, фирменной «фишкой» Яндекса являлось то, что он мог учитывать морфологию русского языка.
Вторая волна в развитии поисковиков началась с появления Google’а с его PageRank’ом. В отличии от Яндекса, который изначально был коммерческим проектом, и вёл свои корни из 1989 года, когда была основана фирма «Аркадия», занимавшаяся созданием специализированных информационно-поисковых системах, и сконцентрировался на контенте (морфологический анализ и т. д.), Google изначально был университетским проектом, что наложило на него свой отпечаток. В отличии от «Яндекса», который делали по принципу «как получалось, главное чтобы делал, что должен», с использованием старых наработок и кодовых баз, Google же изначально был студенческим научным проектом, который никто не планировал выпускать на рынок, что наложило на него свой отпечаток. В отличие от поисковиков поколений 1 и 1+(Яндекс в начале своего пути), акцентированных на алгоритмической оценке контента, насколько это вообще было возможно в те времена, Google пошёл иным путём. Будучи изначально университетским проектом, он испытывал влияние научной среды. В частности, для оценки научных изданий используется такой параметр, как индекс цитирования, который определяет соотношение публикаций, в которых была упомянута статья, к общему количеству публикаций. Развитием этой идеи стал PageRank, производивший оценку авторитетности интернет-страницы на основе того, как часто на неё ссылаются. Удачно подобранная формула расчёта авторитетности страницы в сумме с простым поиском по тексту оказались достаточно эффективными для того, чтобы привлечь пользователей (и обвалить внутреннюю сеть Стендфордского университета, не расчитанную на такой наплыв пользователей). После преобразования Google’а из студенческого проекта в коммерческую компанию началась новая эпоха для поисковых систем и интернета в целом. Для зарождающихся SEOшников эта эпоха стала эпохой ссылок.
Третья волна. Google и технология PageRank задали вектор развития поисковых систем на много лет вперёд. Но с течением времени как были выявлены многочисленные недостатки данного стека технологий, так и изменились требования. Самый разнообразный круг лиц, начиная от прочёвших пару компьютерных журналов и возомнивших себя великими хакерами школьников, и оканчивая серьёзными коммерческими компаниями, начали пытаться эксплуатировать особенности PageRank-подобных алгоритмов (к ним можно отнести так же и яндексовский тИЦ) для продвижения своих страниц и сайтов к вершине выдачи. Линкопомойки, дорвеи, покупка-продажа ссылок, заспамливание всего, куда можно было дотянуться ссылками на свой сайт — в ход шло всё. Данная система, вполне успешно работавшая в довольно жёстко модерируемом научном сообществе, где «научная» статья о влиянии скорости размножения леммингов на период полураспада урана, даже попади она каким-либо образом в серьёзное научное издание, была бы нещадно освистана, и выброшена из индекса, в условиях отсутствия возможности «вживую» отрецензировать каждую страницу, участвующую в поиске и влияющую на ранжирование других страниц, выявила структурную уязвимость перед умышленными злоупотреблениями. Возможность поднять в поиске, а значит, и повысить посещаемость (и, как следствие, продажи предлагаемых товаров, поддержку продвигаемого кандидата, распространение именно своей точки зрения на острый актуальный вопрос) привлекло целую индустрию злоумышленников, занимающуюся торговлей ссылками. Конечно же, поисковики не оставили это всё просто так, и приняли меры. Обнуление веса ссылок, ведущих с бесплатных хостингов, бан дорвеев, санкции за обилие исходящих ссылок, специализированные теги
В ходе своего развития Интернет прошёл путь от универсального средства коммуникации между учёными до универсального средства связи и универсального поставщика любого контента на любой вкус. И, если в начале пути было достаточно просто найти все документы, в которых встречалось искомое слово, затем — отсортировать выдачу по авторитетности источников, то на более поздних этапах развития уже возникла возможность и необходимость ранжирования выдачи в соответствии с потребностями конкретного пользователя. Например, для компьютерщика и автомобилиста запрос «шины» будет иметь совершенно разный смысл. Компьютерщик с высокой степенью вероятности будет искать информацию о существующих шинах данных, в то время как автомобилист будет искать информацию о шинах для автомобильных колёс. Отслеживание интересов пользователей и персонализированная выдача стали началом третьей волны развития поисковиков.
Как продолжение персонализации выдачи, многие поисковики решили вести статистику популярности ресурсов у определённых категорий пользователей из предположения, что контент, показанный группе пользователей, принадлежащих определённой категории, и вызвавший определённые реакции с определённой частотой (закрыть браузер сразу после того, как увидели это, не обратить внимание и пролистнуть дальше, вспыхнуть праведным гневом и начать доказывать, что на сайте кто-то не прав, и затянуть обсуждение на пару десятков мегабайт), с высокой долей вероятности вызовут аналогичные реакции с схожей частотой и у остальной части данной категории пользователей. В частности, популярные сайты будут пользоваться успехом.
Данную методику (ранжировать ресурсы по популярности) уже несколько лет негласно использует Google, а Яндекс и вовсе сделал данную методику основной, полностью упразднив дискредетировавшее себя за счёт огромных размеров накруток ссылочное ранжирование. Данная методика имеет гораздо больший потенциал прочности против злоупотреблений, так как, во первых, ранжирование на основе собственной статистики позволяет эффективно проводить анализ поведенческих факторов и выявлять неестественность поведения, а во-вторых, даже в случае обхода защиты от накруток, из-за базовых особенностей методики, накрутка в первую очередь накрутит результаты выдачи среди самих накрутчиков.
Правильная накрутка поведенческого фактора — это сложнейший многоэтапный процесс, включающий в себя много этапов, а так же требующий существенных трудовых и материальных затрат.
Во-первых, создание пула виртуальных пользователей. Это первый этап накрутки, без которого ни одна накрутка не обходится. Так как ранжирование на основе поведенческих факторов прежде всего учитывает интересы групп пользователей, и пытается угадать по той части аудитории, которая уже посетила сайт/страницу, как к нему/ней отнесётся остальная часть аудитории, которая на сайт/страницу ещё не заходила. То есть недостаточно просто организовать несколько тысяч заходов с поисковых систем на сайт, чтобы он ранжировался выше. Для того, чтобы поисковая система учла заход, требуется, чтобы она могла отнести пользователя, осуществляющего поиск, к одной или нескольким группам. Это могут быть самые разнообразные группы: по интересам (анимешники, меломаны, геймеры и т. д.), по роду занятий (школьники, студенты, рабочие, менеджеры по продажам и т. д.), по возрасту (10-14, 14-16, 16-18, 18-22 и т. д.) , по месту жительства (Москва и подмосковье, Ростовская область и т. д.) и по многим другим. На сегодняшний день почти на каждом сайте есть инструменты для отслеживания пользователей, а так же определённая целевая аудитория. Один сайт более интересен мужчинам от 24 до 30 лет, другой — девушкам от 16 до 22 и т. д. , третий — анимешникам обоих полов от 10 и до 30+. Ни один из них не позволяет с высокой долей достоверности установить личность, предпочтения и вкусы пользователя, но история заходов на сотню сайтов уже позволяет с высокой долей вероятности рассказать о человеке практически всё, а так же установить его личность. Кроме того, есть общедоступные профили в социальных сетях, история запросов в поисковых сетях, просмотренных видео в Youtube и т. д. Все эти параметры могут (и учитываются) поисковыми системами с помощью технологий Big Data. Без всего этого шлейфа, во первых, поисковик может заподозрить, что пользователь является ботом, а, во-вторых, просто не сможет классифицировать его связи с группами интересов, и, как следствие, отметить данную страницу как интересную для этих групп.
Создание пула виртуальных машин.
Одним из главных признаков для идентификации пользователей является устройство, с которого он заходит в сеть, и его IP - адрес. При каждом обращении к сети отправляется текущий IP – адрес пользователя, а так же версия его браузера и операционной системы. С помощью простейших манипуляций можно установить его разрешение экрана, наличие или отсутствие определённых дополнений для браузера, часовой пояс, в котором находится устройство, и многое другое. Из чего следует, что если с одного устройства было два и более хвостов заходов, то либо два и более пользователя делят одно устройство, либо же имеет место накрутка. Первым признаком (не полностью достаточным, но дающим высокую вероятность) того, что устройство одно и то же, служит IP – адрес. Кроме того, одинаковые подписи устройств так же могут вызвать определённые подозрения. Особенно если у этих устройств наблюдаются синхронные всплески интереса к одним и тем же сайтам. Таким образом, для безопасной накрутки требуется большой пул виртуальных устройств и IP – адресов, чтобы минимизировать риск обнаружения манипуляций и обеспечить безопасный наклик. При недостаточном пуле есть риск того, что поисковики заметят кластеризацию поведения пользователей, что может привести к подозрениям в раскрутке. Во избежание таких подозрений, среднее количество «рукопожатий» между виртуальными пользователями (количество переходов пользователь — сайт — другой пользователь, который посещал этот же сайт) должно быть близким к тому, что наблюдается у реальных случайных пользователей., что требует огромного пула адресов и устройств, во много раз превосходящего максимальное количество уникальных виртуальных пользователей, посещающих конкретный сайт (предположительно, на этом и погорели клиенты сервиса SerpClick, одного из пионеров наклика поведенческого фактора: сначала всё было замечательно, но затем Яндекс смог составить список устройств, которые, не имея объяснимой связи интересов, активно посещали одни и те же адреса).
Требования к технической стороне эмуляции.
Поисковые системы при анализе поведения пользователей используют все параметры, до которых лишь могут дотянуться. В частности, это относится к отслеживанию поведения курсора, нажатий на клавиатуру и т. д. В связи с тем, что в условиях непрерывно совершенствующихся и меняющихся скриптов поисковых систем невозможно достоверно подделать их ответ серверу, единственными надёжными способами эмуляции действий пользователя являются Селениум и эмуляция физических устройств ввода. Так же требуется полностью эмулировать действия пользователей, в частности, мало какой пользователь сможет идеально прямо провести курсор через весь экран.
Правильный подбор аудитории наклика.
Сами принципы поведенческого ранжирования подразумевают, что сайт будет популярен среди тех людей, у которых он популярен. То есть, чем больше будет точек пересечения между интересами виртуальных и реальных пользователей, тем больше будет шанс, что для них будет показан продвигаемый сайт по их запросам. Таким образом для максимального эффекта от продвижения необходимо, чтобы виртуальные пользователи принадлежали к максимально широкому кругу групп интересов, тем самым обеспечивая равномерное продвижение среди максимально широких групп населения.
В случае ограничений бюджета, или отсутствия амбиций на территории всей страны разумным вариантом является продвижение по региону проживания, которое так же хорошо сочетается с продвижением по среднечастотным запросам (например, запрос «купить пластиковые окна Ростов» будет разумно продвигать по Ростову и области, продвижение его в Москве бессмысленно). Так же система управления накликом должна разумно управлять активностью виртуальных пользователей, не допуская ситуаций, когда, к примеру, виртуальный пользователь с профилем школьника получает задачи по наклику на 3 часа ночи по будням. Производимые пользователями операции должны быть максимально соответствующими характеру пользователей.