Часто общаясь с разными интернет маркетологами и SEO специалистами, пришел к выводу, что они не придают значению 404 SOFT ошибкам. То есть, все нацелены, как всегда, на ROI, ROMI, KPI. Все хотят крутой контент. Новые посадочные под новые семантические интенты. И конечно, всем нужно крутые беклинки. Куда ж без них?

И, как ни странно, часто проходят мимо обычных технических вопросов, которые могут убить все ваше SEO-ШМЕО на корню. Один из таких технических моментов – это то, как Googlebot обходит сайт (как он краулит страницы). В данной статье поговорим про 404 SOFT ошибки и как сильно они влияют на ваше продвижение.

Что же такое 404 SOFT ошибки?

Давайте разбираться! Вероятно, вы уже видели страницы типа этой:

Стандартная 404 ошибка в интернет-магазине

Это стандартная страница для 404 ошибки в интернет магазине f.ua.

Каждый раз, когда отображается сообщение об ошибке 404 или Not Found, сервер должен вернуть стандартный код ответа HTTP 404. Код ответа сервера 404 указывает на то, что он (сервер) не смог найти запрошенный URL.

Этот код сообщает браузеру и поисковым системам, что данная страница не существует. В результате содержимое страницы, если оно есть, не будет сканироваться поисковыми системами (это написано в справке Google).

В приведенном выше примере сервер f.ua отображает страницы 404 для всех несуществующих URL. Четко виден специально разработанный дизайн, где представлены акции магазина, чтобы пользователь не ушел с сайта мгновенно. Это стандартная практика в е-коммерсе, где важен каждый посетитель.

К сожалению, большинство специалистов, которые так или иначе вовлечены в процесс продвижения сайтов, не понимают, что сообщение «страница не найдена» – никак не связано с HTTP-ответом, который возвращает сервер. Еще раз, совсем не означает, что страница автоматически определяется, как страница 404 всего лишь по сообщению 404 File Not Found.

Ошибка «Soft 404» возникает всякий раз, когда:
– несуществующая страница (или страница, которая была удалена) не возвращает код ответа HTTP 404 по требованию пользователя или бота;
– несуществующая страница перенаправляет пользователей на нерелевантную страницу;
– когда страница пустая, на ней нет контента

Какие проблемы с 404 SOFT

Если для несуществующей страницы возвращается HTTP статус отличный от 404 (или 410), то это может негативно влиять на ранжирование всего сайта в Google поиске. Во-первых, если вы не предоставите код ответа 404, ваш сайт сообщит поисковым системам, что есть реальная страница по адресу, который они пытаются получить. В результате URL, который вы удалили, будет просканирован и проиндексирован. В итоге, вы теряете ценный бюджет краулера.

Бюджет краулинга – это концепция, согласно которой, Google ограниченное время сканирует веб-сайт прежде чем остановит процесс и перейдет на другой ресурс. Google не хочет бесконечно тратить время на сканирование контента на одном и том же сайте. Поэтому имеет смысл сделать все возможное, чтоб Google сканировал в первую очередь только новые или измененные страницы.

Исходя из концепции краулингового бюджета, процесс обхода 404 SOFT страниц неизбежно займет драгоценные лимиты сканирования. Иными словами, вместо того, чтоб сканировать нужные вам URLs, Googlebot будет сканировать Soft 404 ошибки. А это уже снижает видимость важного контента на вашем сайте. Поэтому, неудивительно, что при устранении ошибок Soft 404 наблюдается тенденция к улучшению ранжирования сайта в SERP Google.

Второе, что не менее важное – это потеря линкджуса. Как Ведущий Участник справочных форумов Google “Для веб-мастеров” и “Поиск“ наблюдал такую практику: карточку товара интернет магазина перенаправляют на главную страницу или на страницу категории (делают 301/302 редирект). Это делают для старых карточек товара, на которых есть ссылочная масса. В данном случае это совсем неуместно и будет путать поисковых роботов. Ключевой момент в том то, что удаленные или недоступные страницы должны перенаправляться только на страницы с аналогичным контентом. Если прямой замены не существует, то сервер должен возвратить 404 HTTP статус для такого типа URL

Еще одной плохой практикой является следующее: вебмастер перенаправляет удаленные или не найденные страницы на кастомную 404 страницу, которая отдает код ответа сервера 200. В данном случае прослеживается четкий интент вебмастера: желание сохранить ссылочный вес удаленных/не найденных страниц благодаря перелинковке на фейковой 404й странице. Все это приведет к тому, что Google пометить данную кастомную страницу как 404 SOFT ошибку и никакого перераспределения ссылочного веса не произойдет.

Например среди топовых интернет магазинов Украины эта болезнь у Комфи, а у Розетки дела обстоят немного хуже.

Примеры soft 404 на популярных интернет-магазинах

Как решать проблемы с 404 софт ошибками?

Первое, что нужно сделать – это выгрузить все 404 из Google Search Console

Выгрузка 404 из Search Console

В приведенном выше примере сообщается о 5915 ошибках “не найдено” и 2х 404 soft ошибках. Нам понадобятся для анализа эти 2 отчета.

Google позволяет экспортировать максимум 1000 URL-адресов в Инструментах для веб-мастеров. Поэтому в таком случае работать нужно итерационно: проработайте первую 1000 – нажмите исправлено, через время Google обновит данный отчет и вы сможете проработать следующие 1000 результатов.

Как проработать более 1000 url в панели для вебмастеров Google

После того, как вы выгрузите список URL-адресов, вам нужно будет оценить, почему эти страницы помечены как 404. Google предоставляет несколько ограниченную информацию о URL-адресах, которые они выделяют как “Soft 404” (см пример ниже).

Подробные сведения об ошибке

Желательно массово проверить УРЛы, чтоб понять, какой код ответа сервера они возвращают. Я использую для этих целей https://httpstatus.io/.

Пример soft 404 с редиректом

В большинстве случаев вы обнаружите, что такие страницы возвращают код ответа сервера 200 (OK). Это яркий пример ошибки Soft 404, поскольку код ответа HTTP указывает роботам Google, что эта страница существует и должна быть просканирована. Однако на странице нет содержимого, возвращаемого сервером.

Решение: отдавать для такого типа страниц код ответа сервера 404

Другая проблема, с которой вы можете столкнуться при диагностике основной причины ошибок Soft 404, – это неуместные 301/302 перенаправления (пример, как это может быть, описана выше).

Решение: либо отдавайте для таких страниц код ответа сервера 404 и теряйте linkjuice, либо не удаляйте такие страницы, прописывая в head документа <META NAME="ROBOTS" CONTENT="NOINDEX, FOLLOW"> и сохраните драгоценную вам ссылочную массу


И как вишенка на тортике (это для тех кто любит подумать и поставить эксперименты). Итак, у нас есть страницы с разным содержанием А и Б. Б – морально устарела и ее хочется удалить (что не висела в базе), но на ней много ссылок.

Что если перед удалением, мы заменим содержимое в стр Б на содержимое стр А. Отследим, когда придет бот Гугла, а после средиректим? Предлагаю обсудить это в комментариях. А также чем отличается код ответа сервера 404 от 410 и какое применение можно найти для кода ответа сервера 410?