Анализ текстов в Топ 50 (альфа версия)
Продвинутый анализ конкурентов, поиск зависимостей - получите от seo оптимизации текстов максимум результата
1 - Выгрузка Топ 50 по поисковой фразе
Анализируется только документы в Топ 50 поисковой выдачи, удаляются рекламные блоки и сервисы яндекса (картинки, видео, маркет и т.д).
Например, для запроса "пластиковые окна" в Яндекс(Москва) будут удалены следующие блоки:

2 - Определение словоформ и связанных слов
Выделяются слова, которые "подсвечиваются" (выделяются жирным) в сниппетах документов результатов по запросу.
Например, для запроса "пластиковые окна" в Яндекс:

Слова фильтруются путем посимвольного сравнения слов из запроса с полученнымы из сниппетов словами.
Алгоритм определяет корень слова из запроса, если есть совпадение - слово считается словоформой. Для случаев, когда корень слова не удается определить, минимальным считается совпадение в 70%.
Если слово не определяется как словоформа, но оно часто употребляется в сниппетах - алгоритм считает его "связанным" с данным запросом.
Например, для запроса "пластиковые окна" словоформы:
Слово | Словоформа |
---|---|
пластиковые | пластиковым, пластиковыми, пластиковых |
окна | окнам, окнами, окнах, окно |
Связанные слова: москва, москве, москвы, окон, отзывы
3 - Удаление сквозных блоков
Для всех анализируемых страниц (включая вашу страницу для сравнения) скачивается дополнительная страница с сайта.
Каждая страница отчищается от стилей (классы, id), адресов в ссылках (href, src), переносы строк, табуляции и т.д. - это позволяет избежать путаницы с активными элементами (например, в меню они для разных страниц отличаются).
Разметка страницы разбивается на блоки исходя из тегов div и ul, посимвольно сравниваются итоговые элементы на 2х страницах.
При наличии 100%совпадения - блок считает сквозным и удаляется из анализируемо страницы.
Удаляется все разметка, которая находится внутри тэгов: nav, header, footer.
Удаляеются все блоки в id/class которых есть упоминание menu, footer, breadcrumb и т.д
4 - Определение типа страницы - коммерчаская или информационная
По ряду признаков система просчитывает веростность коммерческой (наличие телефона, страницы контактов, цены на товар и т.д) и информационной (наличение слова forum в урл страницы, ссылки на страницу "реклама на сайте", фразы "своими руками", слов "фото" в названии страницы и т.д) составляющих.
* Для выделения нужных факторов было проанализировано около 5000 страниц, полученных из топ 50 коммерческих и информационных запросов.
Исходя из итоговых вероятностей, система решает к какому типу относится страница. Если активирована опция "только коммерческие", то из анализа исключаются все страницы, определенные как информационные. В случае, если тип страницы определить не удалось - она считается информационной.
Пример определения типа страницы:
5 - Вхождение поисковой фразы и слов на странице
Для анализа вхождений на странице текст отчищается от всей разметки и разбивается на последовательность предложений (каждый элемент в списке считается отдельным предложением).
Для каждого предложения система ищет последовательно символов,соответствующих фразе и каждому анализируемому слову.
Текст из Title и H1-H3 считаются до очистки от разметки, title не участвует в подсчете вхождений фраз и слов в документе.
Из страницы удаляются весть контент внутри noindex в виде тега (<noindex>) и комментария (<!-- noindex -->).

Плотность рассчитывается исходя из кол-ва вхождений слова в документ и общего кол-ва слов в документе (обратите внимание, что речь идет не о кол-ве символов).
Например, если слово встречается 15 раз в документе, состоящем из 2200 слов, то итоговая плотность слова = 15/2200*100 = 0,6818%
6 - Релевантность по формулам TF-IDF и BM25
6.1 - определение IDF слов
IDF слова = логарифм от (кол-во документов в коллекции/кол-во документов, по которым найдено слово)
Кол-во документов в коллекции = общее кол-во проиндексированных страниц в поисковой системе.
Кол-во документов, по которым найдено слово = кол-во страниц, найденных по точному вхождению слова в поиске "!слово"
Например, если слово найдено в 60 000 000 документах, а индекс поисковой системы равен 2 500 000 000, то
IDF слова = log(2 500 000 000/
60 000 000) = 1.42
6.2 - определение средней длины документа
Средняя длинна документа = сумма кол-ва слов всех документов в топ 50 по запросу/кол-во документов
Например, если во всех документах топ 50 найдено 30 000 слов, то средняя длинна = 30000/50 = 600 слов
6.3 - подсчет TF-IDF слова
TF-IDF слова = TF слова в документе * IDF слова
TF в документе (частота употребления слова в документе) = кол-во вхождений слова в документе/общее кол-во слов в документе
Например, для слова "окна":
TF в документе = 15 раз в документе/500 слов в документе = 0,03
IDF слова = log(2 500 000 000/
60 000 000) = 1,42
TF-IDF слова = 0,03*1,42 = 0,0426
Общая релевантность документа = сумма релевантности каждого слова (в анализе выделяются отдельно по группам слов - точные вхождения, словоформы, связанные).
6.4 - подсчет BM25 слова
BM25 = IDF слова * (TF слова * (k + 1) / (TF слова + k * (1 - b + b * Длину документа/Среднюю длину документа)))
k = 2, b = 0,75 - свободные коэффициенты
Например, если IDF слова = 1,42 , TF слова = 0,03 , длинна документа = 500 слов, средняя длинна документа = 600 слов
BM25 слова = 1,42 * (0,03 * (2 + 1) / (0,03 + 2 * (1 - 0,75 + 0,75 * 500/600))) = 1,42 * 0,09/1,78 = 0,0717
Общая релевантность документа = сумма релевантности каждого слова (в анализе выделяются отдельно по группам слов - точные вхождения, словоформы, связанные).
7 - Сглаживание данных
Используется алгоритм "двойного экспоненциального сглаживания" для минимизации влияния отклонений при просчете зависимостей.
Особенно это заметно если сравнивать исходные данные из Топ 50 с сглаженными, изменение значений параметра становится более явным - это позволяет лучше оценить картину в общем.
8 - Поиск зависимостей
Для просчета зависимостей используется корреляция Пирсона для исходных данных (значения в топ 50) и сглаженных.
Корреляция позволяет предположить наличие связи между позицией документа в топ и значением параметра.
Чем ближе значение к -1, тем сильнее вероятная связь - чем ближе к Топ 1, тем больше становится значение параметра (например, кол-во вхождений фразы) в документах.
Возможна обратная ситуация и значение корреляции стремится к 1 - это может указывать на то, что по данному поисковому запросу "излишняя оптимизация" параметра может привести к ухудшению позиций (например, за переспам точных вхождений слов).
9 - Рекомендуемые значения
Рекомендуемое значение рассчитывается исходя из:
- Среднего значения в Топ 10
- Наличия прямой или обратной зависимости

Среднее значение в Топ 10 - рассчитывается как среднеарифметическое значение показателя всех документов в Топ 10. Значение = сумма значений показателя в каждом документе/кол-во документов
Положительная зависимость (корреляция стремится к -1) - корреляция Пирсона меньше -0.2 по исходным данным и -0.4 по сглаженным.
Система предполагает, что "оптимизация" показателя может привести к улучшению позиций и предлагает увеличить значение в Топ 10 на 30%.
Отрицательная зависимость (корреляция стремится к 1) - корреляция Пирсона больше 0.3 по исходным данным и 0.6 по сглаженным.
Система предполагает, что "оптимизация" показателя может привести к ухудшению позиций и предлагает уменьшить значение в Топ 10 на 20%.
1 - Заполнение формы

1.1 - данные для поиска
А Поисковая фраза - набор слов, по которому будет производиться поиск (от 4 до 100 символов, спец. символы запрещены).
Б Поисковая система - система поиска, в которой будет набираться поисковая фраза.
В Регион - Город/Область/Страна, по которой будет уточняться поиск.
Например, так будут выглядеть настройки поиска для запроса "пластиковые окна" в Яндекс (регион Москва)
1.2 - сравнение с вашей продвигаемой страницей/текстом
Г Адрес вашей страницы - урл страницы, для которой будут анализироваться и сравниваться данные (начинается с http или https, поле не обязательное).
Пример правильно заполненного поля:
Примеры неправильно заполненного поля:
Д Текст для сравнения - текст, который будет сравниваться с результатами ананализа Топ. Возможно использование тегов title, h1, h2 и h3 (но не обязательно).
Пример правильно заполненного поля:
Если поле не пустое, то "Адрес вашей страницы" не учитывается.
1.3 - выделение контентной части страницы
Е Удалять сквозные блоки - на основании анализа 2х страница сайта выделяет сквозные элементы и удаляет их.
Пример удаления сквозных блоков:
1.4 - удаление спектра/витальных и информационных сайтов/досок обьявлений
Ж Удаление примесей - на основании контента и разметки страницы определяет страницы, которые "не вписываются"/отличаются от большинства сайтов в топ.
Если таких сайтов оказывается меньше 20% от всей выборки - система считает их примесями (например, информационная страница "сделать своими руками" по коммерческому запросу) и не учитывает при анализе.
Пример удаления примесей:
1.5 - только коммерческие страницы
З Только коммерческие - исходя из ряда признаков (наличие телефона, цены, страницы контактов и т.д) алгоритм высчитывает вероятность принадлежности каждой страницы к коммерческий или информационной.
В случае, если вы продвигаете коммерческий сайт (что-то продается или покупается - услуга, товар) по коммерческому запросу (например, купить окна), то нет необходимости учитывать информационные страницы при анализе текста.
Система выделит информационные страницы и не будет учитывать их при анализе
Пример удаления информационных страниц:
Внимание! При анализе информационных запросов может быть удалена большая часть страниц из Топ (использовать только в коммерческих запросах).
1.6 - оплата анализа
К Анализировать - кнопка, добавляющая задание на анализ.
За анализ 1 поискового запроса снимается 10 ед. (сумма видна при наведении) с баланса:
2 - Список результатов

2.1 - статус анализа
А Задание ожидает очереди/выполняется - все анализы распределяются в очередь, из которой последовательно отрабатываются на серверах.
Б Задание выполнено - после успешного завершения задания результаты становятся доступными
В Произошла ошибка - появляется в случае, если при выполнении задания произошла непредвиденная ошибка. Списанная на анализ сумма в течении 15 минут компенсируется.
2.2 - фильтрация по запросам
Г Строка для поиска - набор слов, которые нужно найти в поисковых фразах ваших анализов.
Пример правильно заполненного поля:
2.3 - экспорт результата
Д .xls - экспортирует задания (статусе "Задание выполнено") в таблицу Excel.

3 - Результат анализа (Общий вывод)

А Среднее в топ 10 - среднеарифметическое значение параметра в Топ 10.
Б Рекомендуемое значение - откорректированное "среднее значение в топ 10", с учетом прямой или обратной зависимости (корреляции Пирсона).
В Доработать страницу - сравнивает текущие значение параметра на странице с рекомендованным (если при анализе был указан урл).
Г Зависимость - при условии наличия корреляции Пирсона меньше -0.2 по исходным и -0.4 по сглаженным, система предполагает зависимость позиции страницы в Топ от значения параметра.
Общий анализ представляет из себя краткий обзор результатов для основных параметров в Топ 50 по поисковой фразе.
В целях упрощения и экономии времени системы выводит Рекомендуемые значения и сравнивает их с текущей страницей для последующей доработки.
Стоит отметить, что данные значения представляют из себя только рекомендацию и не обязательны к выполнению для эффективного продвижения сайта.
Перед внесением изменений в текстах на сайте тщательно взвесьте все за и против, просмотрите значения в Топ 50 для каждого параметра.
Позиция сайта в Топ - это не только текстовые параметры, поэтому все возможные зависимости могут быть случайными!
Подробные значения всех параметров для каждой страницы в Топ 50 вы можете посмотреть на вкладках:

Что нового:
1. Обновлен алгоритм выделения контентной части - адреса страниц для поиска сквозных блоков в каждом анализе будут совпадать (массив внутренних ссылок на странице теперь сортируется по названию и берется первая ссылка, раньше бралась рандомная ссылка) + добавлено удаление всех блоков в id/class которых есть упоминание 'menu', 'footer', 'breadcrumb' и т.д2. Добавлена поддержка текста для сравнения, теперь вы можете ввести текст, вместо адреса для сравнения. Название страницы (title) и подзаголовки (h1-h3) можно выделять как в html разметке (например, <title>Название вашей страницы</title>). В случае наличия текста для сравнения, адрес Вашей страницы игнорируется.
3. В тестовом режиме запущен "самопальные алгоритм" удаления примесей/информационных страниц
Для каждого документа в топ просчитывается вероятность его коммерческой (наличие телефона, адреса, цен и т.п) и информационной (форум, своими руками и т.д) составляющией. В случае если менее 25% адресов индетифицированы как информционные (75% как коммерческие) - информационные страницы не учитываются (предполагаем, что это примеси информационных страниц по коммерческому запросу). В других случаях страницы не удаляются (например, если вы анализируете некоммерческий запрос и большинство документов в топ будет информационными). Алгоритм не идеальный, однако позволяет с хорошей точностью удалять примеси по коммерческим запросам и получать более точные данные для оптимизации.
Пример 1:
При анализе запроса "красные розы" (Яндекс, Москва) 26 документов идентифицированы как информационные, т.е. 52% (26/50*100). Так как минимальная планка для удаления примесей составляет 25%, все документы будут участвовать в просчетах.
Пример 2:
При анализе запроса "пластиковые окна" (Яндекс, Москва) 2 документа идентифицированы как информационные, т.е. 4% (4/50*100). Так как минимальная планка для удаления примесей составляет 25%, то данные документы не будут участвовать в просчетах и будут удалены из итоговых результатов.
4. Добавлена возможность анализировать только Коммерческие страницы
По факту минимальный %, при котором будут удалены информационные страницы, увеличивается с 25% до 100%. Таким образом все страницы, которые определены как информационные, не будут учитываться.
Внимание! Используйте только при анализе коммерческих запросов (что-то продается или покупается - услуга, товар). В информационных запросах будет удалена большая часть документов из анализа.