Как избежать проблемы дублирования контента для Google?
Как избежать проблемы дублирования контента для Google?
Опубликовано: 2021-11-01
Дублированный контент на странице имеет много общего с превышением бюджета. Только в этом случае речь идет об уменьшении «Бюджета доверия» на сайте поискового робота. Этот вопрос волнует многих владельцев сайтов, так как может появиться даже за их спиной. Прочитав что-то о проблеме дублированного контента, ваш сайт превратился в бомбу замедленного действия. Тик-так на часах и санкции Google ждут вас.
Печально, но факт, что в Сети примерно 25-30% дублированного контента. Такого мнения придерживается бывший сотрудник Google Мэтт Каттс. Хотя дублированный контент может привести к проблемам с поисковой оптимизацией, все не так уж и драматично. Решение есть — прочитайте эту статью и узнайте, как избежать проблем с дублированием контента для Google.
Оглавление показать
Что такое дублированный контент?
Факты о дублирующемся контенте
Какой там контент?
Что такое КОД?
HTTPS-страницы
Системы управления контентом, создающие дублированный контент
Страницы для печати или несколько вариантов сортировки
Дублирование контента в блогах и системах архивирования
Дублированный контент, созданный пользователями (повторяющиеся посты и т. д.)
Заключение
Что такое дублированный контент?
Существует 3 основных типа дублированного контента.
Точный дубликат: два URL-адреса имеют полностью идентичное содержание;
Контент с небольшими отличиями: например, порядок предложений, немного разных изображений и т. д.;
Междоменные дубликаты: во многих доменах существует точная или слегка измененная копия.
Более того, существуют два связанных понятия, которые Google не считает дублирующимся контентом. Но не столь опытные издатели и SEO-специалисты могут легко перепутать их с дублирующимся контентом.
Тонкий контент: это страницы с очень небольшим содержанием. Набор страниц построен на списке адресов организаций, в котором 6 000 адресов, но каждая страница содержит только один адрес: всего несколько строк.
Содержимое фрагмента: страницы, которые немного отличаются друг от друга. На сайте продается обувь Timberland размеров 38, 38,5, 39, 40, 41, 42 и т. д. Если на сайте есть отдельная страница для каждого размера обуви, разница между всеми этими страницами будет незначительной. Такой эффект Google воспринимает как нарезку контента.
Google не любит одинаково тонкий и нарезанный контент. Любой из этих эффектов может быть обнаружен Google Panda. Вот почему издателям следует избегать создания страниц такого типа.
Дублирование контента может происходить по множеству причин:
лицензирование контента вашего сайта;
дефекты архитектуры сайта из-за неоптимизированной для поисковых систем системы управления контентом;
наличие плагиата.
За последние пять лет спамеры с чрезвычайной потребностью в контенте начали «сдирать» контент из законных источников, трансформируя слова с помощью различных сложных процессов и размещая полученный текст на своих страницах, чтобы привлечь поисковые операции «длинного хвоста». показывать контекстную рекламу и другие нечестные цели. Итак, в настоящее время люди живут в мире «проблем дублирования контента» и «штрафов за дублирование контента».
Рекомендуется для вас: 5 способов, которыми хороший контент может ускорить ваши маркетинговые усилия.
Факты о дублирующемся контенте
Дублирование местоположения контента
Если весь определенный контент находится на вашем сайте, дублируется ли он?
Да потому что дублированный контент может быть как на одном, так и на разных сайтах.
Процент дублированного контента
Какой процент страницы должен быть продублирован, чтобы попасть под действие фильтра повторяющегося контента? К сожалению, поисковые системы никогда не публикуют эту информацию, потому что это повлияет на их способность предотвратить саму проблему. Этот процент постоянно меняется для всех двигателей. Суть в том, что страницы не обязательно должны быть идентичными, чтобы считаться дубликатами.
Соотношение кода и текста
Что делать, если ваш код очень большой, но на странице есть несколько уникальных HTML-элементов? Не подумает ли Google, что все страницы дублируют друг друга?
Нет. Поисковые системы заботятся не о вашем коде, а о содержании ваших страниц. Размер кода становится проблемой только тогда, когда он становится непропорциональным.
Соотношение элементов навигации и уникального контента
Все страницы вашего сайта имеют большую панель навигации, множество верхних и нижних колонтитулов, но очень мало контента. Не будет ли Google считать все эти страницы дубликатами?
Нет. Google рассматривает элементы навигации еще до того, как проверяет страницы на наличие дубликатов.
Лицензионный контент
Вы хотите избежать проблемы дублирования контента. Но что делать, если у вас есть контент из других веб-источников, на которые вы имеете лицензию для показа своим посетителям?
Используйте метаимя = «robots» content = «noindex, follow». Поместите его в шапку своей страницы, и поисковые системы будут знать, что этот контент не для них. Другой вариант — получить эксклюзивные права на владение и публикацию этого контента.
Какой там контент?
Уникальный контент пишет человек. Он полностью отличается от любой другой комбинации букв, символов и слов в сети, и на него не повлияли алгоритмы компьютерной обработки текста.
Фрагменты — это небольшие фрагменты контента (например, цитаты), которые копируются и используются снова и снова. Они редко создают проблемы для поисковых систем, особенно если они включены в большой документ с большим количеством уникального контента.
Опоясывающий лишай. Поисковые системы ищут относительно небольшие сегменты фраз (пять-шесть слов) на других веб-страницах. Если в двух документах слишком много черепицы, поисковые системы могут интерпретировать эти документы как дублирующийся контент.
Что такое КОД?
Есть много способов создать дублированный контент. Это объясняет, почему его более чем достаточно в сети. Внутренний дублированный контент требует особой тактики, чтобы получить наилучшие результаты с точки зрения оптимизации. Откровенно говоря, дубликаты страниц — это страницы, которые не представляют никакой ценности ни для пользователей, ни для поисковых систем. Тогда постарайтесь полностью избежать этой проблемы. Убедитесь, что на каждую страницу ссылается только один URL. Кроме того, выполните перенаправление 301 для старых URL-адресов на оставшиеся URL-адреса. Это помогает поисковым роботам как можно быстрее увидеть внесенные вами изменения и сохранить «ссылочный вес», который был на удаленных страницах.
Если это невозможно, есть много других вариантов. Вот краткое изложение самых простых решений для различных сценариев:
Вы можете использовать файл robots.txt, чтобы запретить роботам поисковых систем сканировать повторяющиеся версии страниц вашего сайта;
используйте элемент rel="canonical", который является вторым лучшим решением для удаления дубликатов страниц;
используйте КОД <meta name="robots" content="noindex">, чтобы указать ПОИСКОВЫМ системам не показывать дубликаты страниц.
Однако обратите внимание: если вы используете robots.txt для предотвращения просмотра страницы, применение noindex или nofollow на странице не имеет смысла. Поскольку паук не может прочитать страницу, он никогда не увидит метатеги noindex или nofollow. Имея в виду эти инструменты, рассмотрите некоторые конкретные ситуации дублирования контента.
Вам может понравиться: Почему написание контента имеет значение для брендов и бизнеса?
HTTPS-страницы
Если вы используете протокол SSL (зашифрованный обмен данными между браузером и веб-сервером, который часто используется для электронной коммерции), то страницы вашего сайта начинаются с HTTPS: (вместо HTTP:). Проблема возникает, когда ссылки на ваших страницах HTTPS указывают на другие страницы сайта, используя относительные, а не абсолютные ссылки. Например, ссылка на вашу домашнюю страницу становится https://www.YourDomain.com вместо http://www.YourDomain.com).
Если на вашем сайте есть эта проблема, вы можете использовать переадресацию rel="canonical" или 301, чтобы исправить ее. Альтернативное решение — изменить ссылки на абсолютные: http://www.YourDomain.com/content.html вместо /contenthtml), что также усложняет жизнь тем, кто ворует ваш контент.
Системы управления контентом, создающие дублированный контент
Иногда на сайте может быть много версий одинаковых страниц. Это происходит из-за ограничений в некоторых системах управления контентом, которые ссылаются на один и тот же контент с более чем одного URL-адреса. Обычно это совершенно лишнее дублирование, не представляющее никакой ценности для пользователей. Лучшее решение — удалить дубликаты страниц и сделать 301 редирект для удаленных страниц на оставшиеся. Если это не сработает, попробуйте другие методы.
Страницы для печати или несколько вариантов сортировки
Многие сайты предлагают страницы для печати, которые предоставляют пользователю тот же контент в формате, адаптированном для печати. Некоторые сайты электронной коммерции предоставляют списки своих продуктов с несколькими сортировками (по размеру, цвету, бренду и цене). Эти страницы представляют ценность для пользователя, но не представляют ценности для поисковых систем. Поэтому они думают, что это дублированный контент. В такой ситуации вы можете создать электронную таблицу CSS для печати.
Дублирование контента в блогах и системах архивирования
Блоги представляют собой интересный вариант решения проблемы дублирования контента. Сообщение в блоге может появиться на нескольких разных страницах:
стартовая страница блога;
страница с постоянными ссылками для этого сообщения;
страницы архива;
страницы категорий.
Каждая почтовая копия является дубликатом других копий. Очень редко издатели пытаются решить проблему присутствия поста как на главной странице блога, так и на странице постоянных ссылок. И поисковые системы, кажется, неплохо справляются с этой проблемой. Однако может иметь смысл показывать только фрагменты сообщений на страницах категорий и архивов.
Дублированный контент, созданный пользователями (повторяющиеся посты и т. д.)
Различные сайты используют структуры для получения пользовательского контента, такие как блоги, форумы или доски объявлений. Это может быть отличным способом разработки большого количества контента по очень низкой цене. Проблема в том, что пользователь может публиковать один и тот же контент как на вашем сайте, так и на нескольких других сайтах одновременно, что приводит к проблемам с дублированием контента. Это сложно контролировать, но для уменьшения проблемы можно действовать следующим образом:
У вас должна быть четкая политика, уведомляющая пользователей о том, что контент, который они размещают на вашем сайте, должен быть уникальным и не может размещаться на других сайтах. Без сомнения, получить это сложно, но это поможет реализовать ваши ожидания;
Освежите свой форум уникальным способом, для которого потребуется другой контент. В дополнение к стандартным полям ввода данных также добавьте несколько уникальных полей (отличных от других сайтов), которые будут полезны посетителям вашего сайта.
Вам также может понравиться: Как усилить SEO с помощью видеоконтента?
Заключение
Не слишком беспокойтесь о дублирующемся контенте. Обычно это не такая уж большая проблема. В основном Google сам знает, как решать такие проблемы, как мастер-страницы или цитирование контента. Кроме того, многие сталкиваются с проблемой дублирования контента. Иногда дубликаты не появляются там, где их ожидают, поэтому вам всегда следует проверять сайт на их наличие. Чтобы их предотвратить, нужно создавать уникальный контент для каждой страницы.
Эта статья написана Изабель Джордан. Изабель — журналист по бизнесу и маркетингу в страховой компании ektatraveling.com. Она пишет для различных новостных порталов и тематических блогов, что помогает ей оставаться в центре новостей о путешествиях и страховании. Такая работа дает ей возможность писать статьи на самые актуальные темы сегодняшнего дня.