Ищем дубли страниц
Приветствую Вас, дорогие друзья!
В этой статье мы рассмотрим с Вами один серьезный вопрос. Как найти на сайте дубли страниц, и как от них избавиться? На своем блоге я все статьи пишу исключительно для новичков, которые хотят разобраться в данной теме «Создание блога на движке WordPress».
Устранение дублей страниц
Для ботов поисковых машин странички с отчасти, либо стопроцентно схожим содержимым и различными адресами всегда представляются как дубли страниц. Какая бы это причина не была, недосмотр или халатность веб-мастера. Как бы ни появились дубли страниц, их нужно выявлять и устранять.
Что нужно делать и как бороться с дублями страниц на сайте?
Мысль состоит в том, что абсолютно не стоит закрывать в Робот.тхт доступ к чему либо. Мы напротив все должны открыть, дескать — «Здорово бот заходи, все смотри и радуйся», он приходит и видит метатег:
Таким образом он уже не будет брать страничку в сопли. А если в файле robots все будет закрыто, то он все равно возьмет на всякий случай.
Как найти на сайте дубли страниц
Сейчас давайте будем находить дубли страниц на сайте. Я вам покажу на своем блоге. Захожу в гугл и вбиваю вот так: site:sovety-vebmastera.ru comment-page
Дубли страниц page wordpress
Жму — «Показать результаты» и вижу вот что:
8 дублей страниц. Как видим у меня только 8 дублей страниц. Идем дальше. Вбиваем в гугл: site:sovety-vebmastera.ru feed
Feed — это отростки на конце url статей. В хоть какой вашей статье нажмите ctrl + u и в начальном коде увидите ссылку с feed на конце. Короче, от них нужно тоже избавляться.
Вопрос — как? Что нам все советуют делать в вебе? Верно, добавлять что-то схожее в файл robots
Disallow: */*/feed/*/
Но если мы поглядим на блоги, то у всех есть feed в выдаче гугл. Ну так выходит не работает запрет в Роботсе правильно? Как тогда от их избавляться? До боли просто — открытием feed в robots.txt + редирект. Об этом далее. Это мы проверили только дубли страниц feed и page а давайте еще другие проверим. В общем набирайте вот так в гугл:
site: ваш домен category
site:ваш домен tag
site:ваш домен feed
site: ваш домен attachment_id
site:ваш домен attachment
site:ваш домен trackback
site: ваш домен comment-page
Все как обычно! Поначалу вбиваем, позже идем в конце и жмем «показать результаты». Я на своем блоге показывать не буду, так как у меня дублей страниц уже нет. Я от них избавился. Осталось только feed и page. Ну а теперь проверьте свои блоги и сайты. Проверили, грустно стало? Ну ни чего, на данный момент все поправимо.
Как избавиться от дублей страниц на сайте
Итак! Что нужно сделать? Сперва берем вот этот robots.txt и ставим его для себя
скачать по ссылке
Так. Роботс поставили. Другими словами открыли все, что было закрыто. Сейчас нам нужно на страничках дублей где есть возможность поставить метатег noindex :
А где нет такой возможности, там ставим редирект со странички дубля на основную страничку. Ну а теперь, чтобы вам особо не замарачиваться, лучше сделайте так:
Добавьте вот эти строчки в ваш собственный файл .htaccess
скачать по ссылке
Он лежит у вас в корне блога . Зайдите через FileZilla найдите файл .htaccess нажмите редактировать и вставьте строчки которые расположены выше.
Вот этот код нужно добавить в файл function.php обязательно после <?php
скачать по ссылке
Заходим в плагин Seo и ставим вот так:
Заходим в админку — Опции — Обсуждения и убираем галочку с «Разбивать комментарии верхнего уровня на странички»:
Ожидаем переиндексации
Сейчас нужно ожидать пере индексации, чтоб все дубли страниц вылетели из выдачи. Что мы сделали? В robots.txt мы все открыли, теперь бот будет входить беспрепятственно. Дальше на таких страничках как page, tag и category он будет созидать тот запрещающий метатег noindex и соответственно не будет брать страничку в выдачу.
На странички page мы добавили метатег тем кодом,
который вы установили в файл function.php , а странички tag и category закрылись метатегом потому, что в плагине Seo мы поставили галочки там где нужно. На страничках feed и trackback, attachment и attachment_id, а также comment-page этот метатег мы не ставили, мы поставили 301 редирект добавлением нескольких строк в .htaccess.
В админке в настройках обсуждения мы сняли галочку, чтоб у нас комментарии не разбивались на странички и не делали новые url. В общем сейчас бот приходя на эти странички ( attachment, trackback,attachment_id,feed ), будет автоматом перекидываться на главные странички, а дублированные не забирать в выдачу.
Редирект — сила! Ну вот фактически и все. Если вы будете использовать эту схему, то дублей страниц у вас не будет. Схема рабочая и испытана. Помните — неплохой веб-сайт — это веб-сайт, на который пришел бот, загрузил главную страничку index, все остальные странички вашего блога типа «Об авторе», «Контакты»…, ни чего в выдачу забирать он не должен.
На этом все. Пока. пока