header

Как найти на сайте дубли страниц

Ищем дубли страниц

Приветствую Вас, дорогие друзья!

В этой статье мы рассмотрим с Вами один серьезный вопрос. Как найти на сайте дубли страниц, и как от них избавиться?  На своем блоге я все статьи пишу исключительно для новичков, которые хотят разобраться в данной теме «Создание блога на движке WordPress».

 

Устранение дублей страниц

Для ботов поисковых машин странички с отчасти, либо стопроцентно схожим содержимым и различными адресами всегда представляются как дубли страниц. Какая бы это причина не была, недосмотр или халатность веб-мастера. Как бы ни появились дубли страниц, их нужно выявлять и устранять.

Что нужно делать и как бороться с дублями страниц на сайте?

 

Мысль состоит в том, что абсолютно не стоит закрывать в Робот.тхт доступ к чему либо. Мы напротив все должны открыть, дескать — «Здорово бот заходи,  все смотри и радуйся», он приходит и видит метатег:

 

<meta name=’robots’ content=’noindex,follow’ />

 

Таким образом он уже не будет брать страничку в сопли. А если в файле robots все будет закрыто, то он все равно возьмет на всякий случай.

Как найти на сайте дубли страниц

Сейчас давайте будем находить дубли страниц на сайте. Я вам покажу на своем блоге. Захожу в гугл и вбиваю вот так: site:sovety-vebmastera.ru comment-page

 

ищем дубли

 

Дубли страниц page  wordpress

Жму — «Показать  результаты» и вижу вот что:

 

как найти дубли страниц

 

8 дублей страниц. Как видим у меня только 8 дублей страниц. Идем дальше. Вбиваем в гугл: site:sovety-vebmastera.ru feed

 

как найти дубли страниц

 

Feed — это отростки на конце url статей. В хоть какой вашей статье нажмите ctrl + u и в начальном коде увидите ссылку с feed на конце. Короче, от них нужно тоже избавляться.
Вопрос — как? Что нам все советуют делать в вебе? Верно, добавлять что-то схожее в файл robots

Читайте также  Оптимизация картинки и ее уникальность

 

Disallow: */feed
Disallow: */*/feed/*/

 

Но если мы поглядим на блоги, то у всех есть feed в выдаче гугл. Ну так выходит не работает запрет в Роботсе правильно? Как тогда от их избавляться? До боли просто — открытием feed в robots.txt + редирект. Об этом далее.  Это мы проверили только дубли страниц feed и page  а давайте еще другие проверим. В общем набирайте вот так в гугл:

 

site:ваш домен page
site: ваш домен category
site:ваш домен tag
site:ваш домен feed
site: ваш домен attachment_id
site:ваш домен attachment
site:ваш домен trackback
site: ваш домен comment-page

 

 

Все как обычно! Поначалу вбиваем, позже идем в конце и жмем «показать  результаты». Я на своем блоге показывать не буду, так как у меня дублей страниц уже нет. Я от них  избавился. Осталось только feed и page. Ну а теперь проверьте свои блоги и сайты. Проверили, грустно стало? Ну ни чего, на данный момент все поправимо.

 

Как избавиться от дублей страниц на сайте

Итак! Что нужно сделать? Сперва берем вот этот robots.txt и ставим его для себя

скачать по ссылке

 

robots

 

 

Так. Роботс поставили. Другими словами открыли все, что было закрыто. Сейчас нам нужно на страничках дублей где есть возможность поставить метатег noindex :

 

<meta name=’robots’ content=’noindex,follow’ />

 

А где нет такой возможности, там ставим редирект со странички дубля на основную страничку. Ну а теперь, чтобы вам особо не замарачиваться,  лучше сделайте так:

Добавьте вот эти строчки в ваш собственный файл .htaccess

скачать по ссылке

 

Читайте также  Как раскрутить сайт

.htaccess

 

Он лежит у вас в корне блога . Зайдите через FileZilla найдите файл .htaccess нажмите редактировать и вставьте строчки которые расположены выше.

 

Вот этот код нужно добавить в файл function.php обязательно после <?php

скачать по ссылке

 

функция

 

Заходим в плагин Seo и ставим вот так:

 

настройки seo

 

Заходим в админку — Опции — Обсуждения и убираем галочку с «Разбивать комментарии верхнего уровня на странички»:

настройки обсуждения

 

Ожидаем переиндексации

 

Сейчас нужно ожидать пере индексации, чтоб все дубли страниц  вылетели из выдачи. Что мы сделали?  В robots.txt мы все открыли, теперь бот будет входить беспрепятственно. Дальше на таких страничках как page, tag и category он будет созидать тот запрещающий метатег noindex и соответственно не будет брать страничку в выдачу.

 

На странички page мы добавили метатег  тем кодом,

который вы установили  в файл function.php , а странички tag и category закрылись метатегом потому, что в плагине Seo мы поставили галочки там где нужно. На страничках feed и trackback, attachment и attachment_id, а также comment-page этот метатег мы не ставили, мы поставили 301 редирект добавлением нескольких строк в .htaccess.

 

В админке в настройках обсуждения мы сняли галочку, чтоб у нас комментарии не разбивались на странички и не делали новые url. В общем сейчас бот приходя на эти странички ( attachment, trackback,attachment_id,feed ), будет автоматом перекидываться на главные странички, а дублированные не забирать в выдачу.

 

Редирект — сила! Ну вот фактически и все. Если вы будете использовать эту схему, то дублей страниц у вас не будет. Схема рабочая и испытана. Помните — неплохой веб-сайт — это веб-сайт, на который пришел бот, загрузил главную страничку index, все остальные странички вашего блога типа «Об авторе», «Контакты»…, ни чего в выдачу забирать он не должен.

На этом все. Пока. пока

 

Рейтинг
( 1 оценка, среднее 5 из 5 )
Вам понравилась статья? Буду очень благодарен Вам если поделитесь ею в социальных сетях - просто нажмите на кнопки ниже:
Добавить комментарий