Анализ текстов в Топ 50 (альфа версия)

Продвинутый анализ конкурентов, поиск зависимостей - получите от seo оптимизации текстов максимум результата

О всех ошибках и предложениях пожалуйста сообщайте через обратную связь .

1 - Выгрузка Топ 50 по поисковой фразе

Анализируется только документы в Топ 50 поисковой выдачи, удаляются рекламные блоки и сервисы яндекса (картинки, видео, маркет и т.д).

Например, для запроса "пластиковые окна" в Яндекс(Москва) будут удалены следующие блоки:

2 - Определение словоформ и связанных слов

Выделяются слова, которые "подсвечиваются" (выделяются жирным) в сниппетах документов результатов по запросу.
Например, для запроса "пластиковые окна" в Яндекс:

Слова фильтруются путем посимвольного сравнения слов из запроса с полученнымы из сниппетов словами.
Алгоритм определяет корень слова из запроса, если есть совпадение - слово считается словоформой. Для случаев, когда корень слова не удается определить, минимальным считается совпадение в 70%.
Если слово не определяется как словоформа, но оно часто употребляется в сниппетах - алгоритм считает его "связанным" с данным запросом.

Например, для запроса "пластиковые окна" словоформы:

Слово	Словоформа
пластиковые	пластиковым, пластиковыми, пластиковых
окна	окнам, окнами, окнах, окно

Связанные слова: москва, москве, москвы, окон, отзывы

3 - Удаление сквозных блоков

Для всех анализируемых страниц (включая вашу страницу для сравнения) скачивается дополнительная страница с сайта.
Каждая страница отчищается от стилей (классы, id), адресов в ссылках (href, src), переносы строк, табуляции и т.д. - это позволяет избежать путаницы с активными элементами (например, в меню они для разных страниц отличаются).

Разметка страницы разбивается на блоки исходя из тегов div и ul, посимвольно сравниваются итоговые элементы на 2х страницах.
При наличии 100%совпадения - блок считает сквозным и удаляется из анализируемо страницы.

Удаляется все разметка, которая находится внутри тэгов: nav, header, footer.

Удаляеются все блоки в id/class которых есть упоминание menu, footer, breadcrumb и т.д

4 - Определение типа страницы - коммерчаская или информационная

По ряду признаков система просчитывает веростность коммерческой (наличие телефона, страницы контактов, цены на товар и т.д) и информационной (наличение слова forum в урл страницы, ссылки на страницу "реклама на сайте", фразы "своими руками", слов "фото" в названии страницы и т.д) составляющих.
* Для выделения нужных факторов было проанализировано около 5000 страниц, полученных из топ 50 коммерческих и информационных запросов.

Исходя из итоговых вероятностей, система решает к какому типу относится страница. Если активирована опция "только коммерческие", то из анализа исключаются все страницы, определенные как информационные. В случае, если тип страницы определить не удалось - она считается информационной.

Пример определения типа страницы:

5 - Вхождение поисковой фразы и слов на странице

Для анализа вхождений на странице текст отчищается от всей разметки и разбивается на последовательность предложений (каждый элемент в списке считается отдельным предложением).
Для каждого предложения система ищет последовательно символов,соответствующих фразе и каждому анализируемому слову.
Текст из Title и H1-H3 считаются до очистки от разметки, title не участвует в подсчете вхождений фраз и слов в документе.

Из страницы удаляются весть контент внутри noindex в виде тега (<noindex>) и комментария ().

Плотность рассчитывается исходя из кол-ва вхождений слова в документ и общего кол-ва слов в документе (обратите внимание, что речь идет не о кол-ве символов).
Например, если слово встречается 15 раз в документе, состоящем из 2200 слов, то итоговая плотность слова = 15/2200*100 = 0,6818%

6 - Релевантность по формулам TF-IDF и BM25

6.1 - определение IDF слов

IDF слова = логарифм от (кол-во документов в коллекции/кол-во документов, по которым найдено слово)

Кол-во документов в коллекции = общее кол-во проиндексированных страниц в поисковой системе.
Кол-во документов, по которым найдено слово = кол-во страниц, найденных по точному вхождению слова в поиске "!слово"

Например, если слово найдено в 60 000 000 документах, а индекс поисковой системы равен 2 500 000 000, то
IDF слова = log(2 500 000 000/ 60 000 000) = 1.42

6.2 - определение средней длины документа

Средняя длинна документа = сумма кол-ва слов всех документов в топ 50 по запросу/кол-во документов
Например, если во всех документах топ 50 найдено 30 000 слов, то средняя длинна = 30000/50 = 600 слов

6.3 - подсчет TF-IDF слова

TF-IDF слова = TF слова в документе * IDF слова
TF в документе (частота употребления слова в документе) = кол-во вхождений слова в документе/общее кол-во слов в документе

Например, для слова "окна":
TF в документе = 15 раз в документе/500 слов в документе = 0,03
IDF слова = log(2 500 000 000/ 60 000 000) = 1,42

TF-IDF слова = 0,03*1,42 = 0,0426

Общая релевантность документа = сумма релевантности каждого слова (в анализе выделяются отдельно по группам слов - точные вхождения, словоформы, связанные).

6.4 - подсчет BM25 слова

BM25 = IDF слова * (TF слова * (k + 1) / (TF слова + k * (1 - b + b * Длину документа/Среднюю длину документа)))
k = 2, b = 0,75 - свободные коэффициенты

Например, если IDF слова = 1,42 , TF слова = 0,03 , длинна документа = 500 слов, средняя длинна документа = 600 слов
BM25 слова = 1,42 * (0,03 * (2 + 1) / (0,03 + 2 * (1 - 0,75 + 0,75 * 500/600))) = 1,42 * 0,09/1,78 = 0,0717

Общая релевантность документа = сумма релевантности каждого слова (в анализе выделяются отдельно по группам слов - точные вхождения, словоформы, связанные).

7 - Сглаживание данных

Используется алгоритм "двойного экспоненциального сглаживания" для минимизации влияния отклонений при просчете зависимостей.

Особенно это заметно если сравнивать исходные данные из Топ 50 с сглаженными, изменение значений параметра становится более явным - это позволяет лучше оценить картину в общем.

8 - Поиск зависимостей

Для просчета зависимостей используется корреляция Пирсона для исходных данных (значения в топ 50) и сглаженных.
Корреляция позволяет предположить наличие связи между позицией документа в топ и значением параметра.

Чем ближе значение к -1, тем сильнее вероятная связь - чем ближе к Топ 1, тем больше становится значение параметра (например, кол-во вхождений фразы) в документах.
Возможна обратная ситуация и значение корреляции стремится к 1 - это может указывать на то, что по данному поисковому запросу "излишняя оптимизация" параметра может привести к ухудшению позиций (например, за переспам точных вхождений слов).

9 - Рекомендуемые значения

Рекомендуемое значение рассчитывается исходя из:

Среднего значения в Топ 10
Наличия прямой или обратной зависимости

Среднее значение в Топ 10 - рассчитывается как среднеарифметическое значение показателя всех документов в Топ 10. Значение = сумма значений показателя в каждом документе/кол-во документов

Положительная зависимость (корреляция стремится к -1) - корреляция Пирсона меньше -0.2 по исходным данным и -0.4 по сглаженным.
Система предполагает, что "оптимизация" показателя может привести к улучшению позиций и предлагает увеличить значение в Топ 10 на 30%.

Отрицательная зависимость (корреляция стремится к 1) - корреляция Пирсона больше 0.3 по исходным данным и 0.6 по сглаженным.
Система предполагает, что "оптимизация" показателя может привести к ухудшению позиций и предлагает уменьшить значение в Топ 10 на 20%.

1 - Заполнение формы

1.1 - данные для поиска

А Поисковая фраза - набор слов, по которому будет производиться поиск (от 4 до 100 символов, спец. символы запрещены).

Б Поисковая система - система поиска, в которой будет набираться поисковая фраза.

В Регион - Город/Область/Страна, по которой будет уточняться поиск.

Например, так будут выглядеть настройки поиска для запроса "пластиковые окна" в Яндекс (регион Москва)

1.2 - сравнение с вашей продвигаемой страницей/текстом

Г Адрес вашей страницы - урл страницы, для которой будут анализироваться и сравниваться данные (начинается с http или https, поле не обязательное).

Пример правильно заполненного поля:

Примеры неправильно заполненного поля:

Д Текст для сравнения - текст, который будет сравниваться с результатами ананализа Топ. Возможно использование тегов title, h1, h2 и h3 (но не обязательно).

Пример правильно заполненного поля:

Если поле не пустое, то "Адрес вашей страницы" не учитывается.

1.3 - выделение контентной части страницы

Е Удалять сквозные блоки - на основании анализа 2х страница сайта выделяет сквозные элементы и удаляет их.

Пример удаления сквозных блоков:

1.4 - удаление спектра/витальных и информационных сайтов/досок обьявлений

Ж Удаление примесей - на основании контента и разметки страницы определяет страницы, которые "не вписываются"/отличаются от большинства сайтов в топ.
Если таких сайтов оказывается меньше 20% от всей выборки - система считает их примесями (например, информационная страница "сделать своими руками" по коммерческому запросу) и не учитывает при анализе.

Пример удаления примесей:

1.5 - только коммерческие страницы

З Только коммерческие - исходя из ряда признаков (наличие телефона, цены, страницы контактов и т.д) алгоритм высчитывает вероятность принадлежности каждой страницы к коммерческий или информационной.
В случае, если вы продвигаете коммерческий сайт (что-то продается или покупается - услуга, товар) по коммерческому запросу (например, купить окна), то нет необходимости учитывать информационные страницы при анализе текста. Система выделит информационные страницы и не будет учитывать их при анализе

Пример удаления информационных страниц:

Внимание! При анализе информационных запросов может быть удалена большая часть страниц из Топ (использовать только в коммерческих запросах).

1.6 - оплата анализа

К Анализировать - кнопка, добавляющая задание на анализ.

За анализ 1 поискового запроса снимается 10 ед. (сумма видна при наведении) с баланса:

2 - Список результатов

2.1 - статус анализа

А Задание ожидает очереди/выполняется - все анализы распределяются в очередь, из которой последовательно отрабатываются на серверах.

Б Задание выполнено - после успешного завершения задания результаты становятся доступными

В Произошла ошибка - появляется в случае, если при выполнении задания произошла непредвиденная ошибка. Списанная на анализ сумма в течении 15 минут компенсируется.

2.2 - фильтрация по запросам

Г Строка для поиска - набор слов, которые нужно найти в поисковых фразах ваших анализов.

Пример правильно заполненного поля:

2.3 - экспорт результата

Д .xls - экспортирует задания (статусе "Задание выполнено") в таблицу Excel.

3 - Результат анализа (Общий вывод)

А Среднее в топ 10 - среднеарифметическое значение параметра в Топ 10.

Б Рекомендуемое значение - откорректированное "среднее значение в топ 10", с учетом прямой или обратной зависимости (корреляции Пирсона).

В Доработать страницу - сравнивает текущие значение параметра на странице с рекомендованным (если при анализе был указан урл).

Г Зависимость - при условии наличия корреляции Пирсона меньше -0.2 по исходным и -0.4 по сглаженным, система предполагает зависимость позиции страницы в Топ от значения параметра.

Общий анализ представляет из себя краткий обзор результатов для основных параметров в Топ 50 по поисковой фразе.
В целях упрощения и экономии времени системы выводит Рекомендуемые значения и сравнивает их с текущей страницей для последующей доработки.
Стоит отметить, что данные значения представляют из себя только рекомендацию и не обязательны к выполнению для эффективного продвижения сайта.
Перед внесением изменений в текстах на сайте тщательно взвесьте все за и против, просмотрите значения в Топ 50 для каждого параметра.
Позиция сайта в Топ - это не только текстовые параметры, поэтому все возможные зависимости могут быть случайными!

Подробные значения всех параметров для каждой страницы в Топ 50 вы можете посмотреть на вкладках:

Пакетный режим

Поисковая система

Регион

Пример текста 1
Пример текста 2

* если поле не пустое, то "Адрес вашей страницы" не учитывается

демо данные

шт.

выделяется контентная часть страницы

не учитываются страницы, которые попали в топ не по "общим правилам"

не учитываются страницы, которые система определила как информационные - использовать только в коммерческих запросах

Для анализа конкурентов необходимо авторизоваться

Что нового:

1. Обновлен алгоритм выделения контентной части - адреса страниц для поиска сквозных блоков в каждом анализе будут совпадать (массив внутренних ссылок на странице теперь сортируется по названию и берется первая ссылка, раньше бралась рандомная ссылка) + добавлено удаление всех блоков в id/class которых есть упоминание 'menu', 'footer', 'breadcrumb' и т.д

2. Добавлена поддержка текста для сравнения, теперь вы можете ввести текст, вместо адреса для сравнения. Название страницы (title) и подзаголовки (h1-h3) можно выделять как в html разметке (например, <title>Название вашей страницы</title>). В случае наличия текста для сравнения, адрес Вашей страницы игнорируется.

3. В тестовом режиме запущен "самопальные алгоритм" удаления примесей/информационных страниц

Для каждого документа в топ просчитывается вероятность его коммерческой (наличие телефона, адреса, цен и т.п) и информационной (форум, своими руками и т.д) составляющией. В случае если менее 25% адресов индетифицированы как информционные (75% как коммерческие) - информационные страницы не учитываются (предполагаем, что это примеси информационных страниц по коммерческому запросу). В других случаях страницы не удаляются (например, если вы анализируете некоммерческий запрос и большинство документов в топ будет информационными). Алгоритм не идеальный, однако позволяет с хорошей точностью удалять примеси по коммерческим запросам и получать более точные данные для оптимизации.

Пример 1:
При анализе запроса "красные розы" (Яндекс, Москва) 26 документов идентифицированы как информационные, т.е. 52% (26/50*100). Так как минимальная планка для удаления примесей составляет 25%, все документы будут участвовать в просчетах.

Пример 2:
При анализе запроса "пластиковые окна" (Яндекс, Москва) 2 документа идентифицированы как информационные, т.е. 4% (4/50*100). Так как минимальная планка для удаления примесей составляет 25%, то данные документы не будут участвовать в просчетах и будут удалены из итоговых результатов.

4. Добавлена возможность анализировать только Коммерческие страницы

По факту минимальный %, при котором будут удалены информационные страницы, увеличивается с 25% до 100%. Таким образом все страницы, которые определены как информационные, не будут учитываться.
Внимание! Используйте только при анализе коммерческих запросов (что-то продается или покупается - услуга, товар). В информационных запросах будет удалена большая часть документов из анализа.