Валидность HTML – сервисы проверки, валидный noindex

04.07.09

W3C валидность На все том же пресловутом сео семинаре я услышал мнение, что для хорошего восприятия того или иного сайта google, он должен быть кроме всего прочего валидным, то есть иметь валидный HTML код. Не знаю как насчет css, поисковые системы вроде как его не сильно понимают, но вот с HTML куда проще. Я уже как-то обращался к данной теме в посте с советами по улучшению блога, но тема затронута была несколько в ином ключе.

В принципе, особых проблем по созданию валидного HTML кода нет. В зависимости от используемого формата DOCTYPE определены те или иные правила. Чаще всего в блогах на WordPress идет тип документа XHTML 1.0 Transitional. Большинство шаблонов, найденных в сети, уже валидны, поскольку их создатели беспокоятся о правильности кода — с ошибками продать темы не получится. Да и вообще стандартам «там», по-моему, больше внимания уделяется.

Сервисы проверки валидности кода HTML

Скорее всего, в сети есть очень много seo и обычных сервисов для проверки валидности, тем не менее, главный из них находится на сайте W3C здесь. В специальной форме вводите ссылку на свой сайт или любую его страницу, если требуется, выбираете дополнительные опции (кодировку, DOCTYPE), после чего запускаете проверку Check.

сервис проверки валидности HTML

При наличии неточностей, в результатах вы получите список предупреждений и ошибок в коде. Иначе высветится приятная зеленая надпись «This document was successfully checked as XHTML 1.0 Transitional!»:)

Чтобы ускорить процесс можно использовать одну из функций модуля для firefox web developer, где кроме валидации есть куча других полезных мелочей.

Валидный noindex

Проблема валидности, как это не удивительно, часто подстерегает с использованием отечественных особенностей, например, счетчики различные и тег noindex. Он используется исключительно для Яндекса чтобы запретить индексацию информации, находящейся в нем. Точно также как для гугла закрываются от индексации ссылки через rel=»nofollow». Но проблема заключается в том, что в W3C вообще не знают или не воспринимают тег noindex, поэтому получить валидный HTML с его использованием нереально. Приходится применять маленькую хитрость в виде следующего кода:

<span class="noi"><![CDATA[<noindex>]]></span>
Текст и ссылки, которые не индексируются
<span class="noi"><![CDATA[</noindex>]]></span>

Это для HTML, при этом в CSS пишите класс:

.noi { display: none }

Данный метод можно найти на множестве сайтов и блогов, о нем не писал только ленивый. А я вот лишь сейчас только занялся валидацией, поэтому и обратил внимание. Использовал его на своем сайте — HTML валидация проходится успешно. При этом многие авторы (оптимизаторы) заявляют, что в процессе тестирования noindex продолжает корректно выполнять свои функции для Яндекса. То есть, походу данное решение позволяет получить валидный noindex.

Кроме того в коде часто бывают проблемы со счетчиками, где используется символ «&». Так вот для типа документа XHTML его нужно просто заменить набором символов «&». Чтобы исправить другие ошибки, читайте пояснения валидатора.

Даже, если валидность HTML не влияет на восприятие сайта поисковиком google, то она может помочь выявить наличие ошибок в самом проекте. Некоторые браузеры (как firefox) часто закрывают глаза на небольшие нюансы — типа отсутствие закрывающей конструкции —> и т.п., в то время как IE будет выводить ошибочное содержимое страницы. Или div какой-то не закрыли, упустили — все это можно с большой вероятностью обнаружить при валидации документа HTML.

А вы что думаете по поводу валидности кода — соблюдаете или нет?

UPD 9.07. Почитав еще немного информации на сайтах и форумах, пришел к выводу, что конструция <![CDATA[<noindex>]]> ссылки от Яши не закроет, хотя валидность будет 100%. Поэтому, думаю, правильным будет соблюдение всех правил написания html кода, но с обычным использованием тега noindex без извращений.

UPD UPD 15.05.11 Неожиданно ответ по поводу валидного noindex был найден на сайте Яндекса, где в описании совершенно четко указано решение данной проблемы, позволяющее использовать noindex и не нарушающего никакие правила W3C (плюс, кстати, Яндекс теперь понимает rel=»nofollow»):

<!--noindex-->текст, индексирование которого нужно запретить<!--/noindex-->

P.S. Постовой. Поисковое продвижение сайта, поисковая оптимизация сайтов.
Новые книги предлагает книжный интернет магазин Букля. Низкие цены, бесплатная доставка!
Машинки и паровозики — игрушки для детей.
Посетите наш цветочный салон и купите цветы, готовые букеты.

04.07.09

Категории: Web разработка, Верстка.

Теги: HTML + CSS, noindex, web разработка, валидность, оптимизация сайта, полезное, стандарты

← Поднятие тИЦ статьями до 100-300 с минимальными затратами

Распродажа моих доменов и сайтов →

Сергей М. 05.07.2009 at 17:55

Нажми «Просмотр исходного кода» %)

На самом деле, общий ход индексации идет примерно таким образом — строится дерево вложенности элементов, убараются повторящиеся элементы (имеется в виду навигационные панели, сайдбары и т.п. — то, что встречается на каждой странице), маркируются значащие элементы (заголовки, стронги), ссылки уходят на обработку (для передачи ТИЦа/PR, а также в очередь на посещение пауком). Соответствующе обработанный текст уходит в индекс с параметрами для убыстрения поиска — вот это уже секрет каждого поисковика, плюс механизмы ускорения поиска и включения в выдачу (и показа сниппетов). По сути, поисковики на данный момент угадывают значащий текст, при этом не сильно работая со структурой документа, больше — с лингвистической частью.

Миф (условно говоря) про важность валидации идет только от того, что строгая верстка с правильной структурой облегчает выделение текстовых блоков, нахождение границ околоссылочного текста, выделение заголовков, списков и прочей семантики на странице.

Т.е. заморачиваться с такими извращения с CDATA (которая нужна для представления символьной информации в HTML, RSS и прочих доках на технологии XML, а не сокрытия огрехов девелоперов) — это попросту перебарщивать — любой паук проигноирует этот тег, а, скорее всего, даже вырежет и не будет хранить в индексе. Все, кроме Яндекса.

А 100% валидность в этом случае выглядит как обращение «Уважаемый», роспись и печать в письме бывшему однокласснику.

47 Comments

Konstantin 05.07.2009 at 16:24

Всегда куча проблема с этим валидным кодом.
У меня пишет ошибку на слове javascript
Error Line 1642, Column 18: an attribute value specification must be an attribute value literal unless SHORTTAG YES is specified
<!—

Возможно есть знающие ?
Сергей М. 05.07.2009 at 16:50

Этот способ прохождения валидации с ноиндексом — бред собачий, если честно. Смысла ноль, валидация ради валидации. Если так нужен этот noindex, ничто не мешает использовать его в валидном в остальных смыслах хтмл — поисковик плевать хотел на такие теги.

А валидность в смысле вложенности и правильности ссылок — действительно важны, для поисковиков тоже.
Tod 05.07.2009 at 16:56

Сергей М., это личное мнение или результаты экспериментов? Просто реализация такой валидации — раз плюнуть, собственно что мешает потратить дополнительно 30секунд и ее сделать. С другой стороны — думаешь поисковики используют другие алгоритмы валидации нежели w3c? а смысл?
Bright 05.07.2009 at 17:06

Недавно тоже задумывался о проблеме валидности, но посмотрев сколько ошибок мне придется исправить и что я получу взамен (фактически ничего — лишь сообщение о валидности), оставил сие занятие до лучших времен.

В конце концов, достаточно, чтобы не было проблем с отображением во всех основных браузерах и проблем с индексацией. Вряд ли валидный код — это путь в ТОПы =)
Сергей М. 05.07.2009 at 17:12

Валидация — это просто парсинг на предмет выполнения неких правил. По правилам w3c тег с неизвестным названием должен игнорироваться браузером (а значит, и пауком любого поисковика) и не отображаться. Но при этом, соответственно, в инструменте валидации он будет высвечен — ведь этот инструмент показывает и то, чего не понимает.

Фактически, я прямо сейчас могу начать использовать тег video, несмотря на отсутствие его поддержки в старых браузерах (да и новых), и мне за это ничего не будет, хе-хе.

Поэтому прятать в CDATA ноиндекс — это только раздувать хтмл, нагружая его беспомощными конструкциями и делать это ради абстрактной валидации — куда важнее внимательней подойти к семантичности хтмл, которая по сути тоже абстрактна, но полезна.

Поисковикам нужна только стройная структура с правильной вложенностью и выделением мета-данных и информации, плюс немного семантики и микроформатов понимают. Все остальное они игнорируют.

Поменьше маньячности, поменьше :) (хотя введение яндексом собственного тега было самым глупым шагом в их истории)
Tod 05.07.2009 at 17:17

Сергей М., может быть и так) пока что мне не сложно добавлять CDATA ноиндекс. Это напоминает мне то, как в wordpress можно в header убрать некоторые вызовы функций и написать вместо них, например, кодировку вручную — одни говорят влияния на производительность почти нет, другие все же заменяют.
Сергей М. 05.07.2009 at 17:23

О, по поводу вызова get_bloginfo и get_option могу сразу сказать — прирост производительности настолько мал, что не оправдывает себя — функции используются для универсальности, которую с удалением мы теряем. Есть гораздо более узкие места, решение которых дает ощутимый прирост в скорости загрузки.

А заключение в CDATA и скрытие в CSS тега ноиндекс, кроме увеличения объема кода, еще и вылезает при отключенных стилях. Это плохая практика, как ни крути.
Tod 05.07.2009 at 17:30

Сергей М., только что проверил отключил стили — вроде ничего не вылезло. Или может я как-то не так проверяю) — смотрю через web developer плагин. Где можно посмотреть как видит твой сайт поисковик?
Сергей М. 05.07.2009 at 17:55

Нажми «Просмотр исходного кода» %)

На самом деле, общий ход индексации идет примерно таким образом — строится дерево вложенности элементов, убараются повторящиеся элементы (имеется в виду навигационные панели, сайдбары и т.п. — то, что встречается на каждой странице), маркируются значащие элементы (заголовки, стронги), ссылки уходят на обработку (для передачи ТИЦа/PR, а также в очередь на посещение пауком). Соответствующе обработанный текст уходит в индекс с параметрами для убыстрения поиска — вот это уже секрет каждого поисковика, плюс механизмы ускорения поиска и включения в выдачу (и показа сниппетов). По сути, поисковики на данный момент угадывают значащий текст, при этом не сильно работая со структурой документа, больше — с лингвистической частью.

Миф (условно говоря) про важность валидации идет только от того, что строгая верстка с правильной структурой облегчает выделение текстовых блоков, нахождение границ околоссылочного текста, выделение заголовков, списков и прочей семантики на странице.

Т.е. заморачиваться с такими извращения с CDATA (которая нужна для представления символьной информации в HTML, RSS и прочих доках на технологии XML, а не сокрытия огрехов девелоперов) — это попросту перебарщивать — любой паук проигноирует этот тег, а, скорее всего, даже вырежет и не будет хранить в индексе. Все, кроме Яндекса.

А 100% валидность в этом случае выглядит как обращение «Уважаемый», роспись и печать в письме бывшему однокласснику.
Tod 05.07.2009 at 18:59

Сергей М., по поводу «посмотрел исходного кода» — имелось ввиду как страницу сайта робот загоняет в индекс — не знаю на 100% ли правильно выразился, но ведь ХТМЛ не учитывается. Я просто когда-то видел в статье разбирали проблему что текст идет типа <span>привет</span>мир — человек с помощью CSS сделал отступ, а вот для ПС это было как одно слово.
Сергей М. 05.07.2009 at 19:18

Для браузера это тоже одно слово, и для любого парсера, не читающего CSS. Пробела-то нет.

Потому я и сказал «исходный код» и привел общий ход разбора для переноса в индекс, хотя он, конечно, хитрее и тоньшее. Занесение слов в спан с определенным значащим стилем тоже может учитываться, но сейчас, скорее всего, нет.
Герман Талкис 05.07.2009 at 21:11

Лучший валидатор — это браузер.
Vanilla Man 06.07.2009 at 12:17

Герман Талкис, вторглись людям в чат да еще и с такой глупостью. А какой именно браузер не уточните? =)
Trakht 06.07.2009 at 12:21

посмотрел на своих сайтах количество ошибок — ужаснулся! решил проверить у конкурентов — в два раза больше но там еще и предупреждения и т.д. и т.п.

проверил у гугла. коечно я понимаю. что ему не нужно переживать по поводу выдачи. но все же если бы это было важно, мог бы хотяюы на главной странице подавать пример:)))
Tod 06.07.2009 at 13:02

Vanilla Man, видимо имелось ввиду, что должно правильно отображаться в браузере, а все остальное — ерунда:)
Виталий 06.07.2009 at 23:39

Проводили эксперимент такой уже на серче, метод был признан не работающим, вот ссылочка на страницу с подтверждением: http://forum.searchengines.ru/showthread.php?p=1850047
Tod 07.07.2009 at 00:08

Виталий, хм, вот черт… читал же этот пост, но не увидел главного. Есть ли какой-то другой способ правильно добавить noindex? Может подскажешь сервисы, которые его находят? А то я один видел, так он вроде как схавал данную конструкцию (хотя он может просто искал вхождения тега).
Моторокер 07.07.2009 at 11:51

Свои статические сайты проверяю своим же плагином SEO HTML для Total Commander. Некоторые сайты развивал нескалько лет, накопилось много ошибок. Конечно же, это не полноценная валидация, но основные ошибки увидеть можно.

Проверить плагином динамический сайт можно только предварительно скачав его целиком. Или хотя бы скачав одну страничку.
Виталий 08.07.2009 at 23:01

Tod, я одно время интересовался на тему валидности ноудиндекса, но как я понял, пока эта проблема не решена.
А проверять методы нужно только через обратные ссылки, думаю это лучше всего покажет — работает метод или нет.
Never Lex 12.12.2009 at 00:25

Самый правильный метод, как я понял, — убрать нафиг ноиндекс. Да и нофоллоу тоже :)

Может это действительно всё фигня?
ukolik 12.12.2009 at 12:53

Поставил эту конструкцию в опере и в гуглхроме сам тег выводится на экран, в фаерфоксе вроде норм — к черту валидацию!
Макс 07.03.2010 at 20:45

Это интересная тема…
Я ее уже разгадал для себя :) Использовал раньше noindex, прятал его и т.д. Но как то в том же Яндексе (http://yandex.ua/yandsearch?text=%D0%BD%D0%B5%D0%B4%D0%B2%D0%B8%D0%B6%D0%B8%D0%BC%D0%BE%D1%81%D1%82%D1%8C+%D0%B2+%D0%B0%D0%BB%D1%83%D1%88%D1%82%D0%B5&tld=ua&lr=187) наткнулся на такие знаки ]]>
Что то увидел в них знакомое и «влез» в код страницы, нашел их там, улыбнулся и больше не использовал noindex. А за модуль для Firefox большое спасибо (хотя раньше его видел, потом забыл про него).
nic 15.05.2010 at 10:51

Пока так и не уяснил, но склоняюсь к тому что валидности кода HTML и правильность работы поисков под вопросом
givanov36 25.08.2010 at 00:43

Блин,у меня тоже полно ошибок, и CSS и HTML,может есть какие сервисы,которые все исправляют,а ты потом просто весь исправленный шаблон вставляешь и все?!Чтото подобное видел на cy-pr,но Блогеру чего-то не нравится и он не сохраняет такой шаблон.
Gogi 31.12.2010 at 02:27

На мой взгляд сайт имея :
1. Валидность
2. Не иметь битых ссылок ( проверить программой — XENU )
3. Уникальность не только контента, но кода CMS
4. Дизайн
5. Правильная перелинковка
6. Домен ( возраст, ip, транслит и тд.)
6. Ссылочная масса ( очень осторожно )

100 % попадет в ТОП — 10
Tod 31.12.2010 at 21:37

Gogi, оптимизация текстов сайта, перелинковка + внешние ссылки и будет топ, остальное второстепенно.
Max 28.03.2011 at 23:08

Да смысла ноль в этой валидации, возьмите любой хорошо индексируемый в google сайт, и проверьте валидатором, полно ошибок. Чего далеко ходить — Яндекс проверьте, да и пузомерки практически все с ошибками. Ошибки в коде поправить — это да, но без фанатизма.
Dim 14.05.2011 at 22:09

текст, индексирование которого нужно запретить
всё валидно :)
http://help.yandex.ru/webmaster/?id=1111858
Tod 16.05.2011 at 14:22

Dim, спасибо за дополнение к статье, уже добавил в текст, раньше у Яндексе этого не было, насколько я помню, а сейчас вот оно как и nofollow понимает и валидный noindex придумал)
Илья 06.06.2011 at 22:47

Вот за апдейт от 15.05.11 Вам огромное человеческое спасибо!
Александр 16.07.2011 at 09:41

Я не пойму, зачем писать о валидности если у самих сайт не проходит проверку на валидность и выдаёт 136 ошибок?
И как на самом деле добиться валидности сайта и есть ли в этом смысл?
Мой сайт на проверке показал 31 ошибку.
Tod 16.07.2011 at 20:06

Александр, пишу о валидности чтобы другие знали об этом, у меня не проходит, так посчитал это не самым важным заданием на данный момент (и вообще).
Добиться валидности очень просто — исправить все ошибки и замечания. Если в этом смысл? — сложно сказать, в плане более правильной работы сайта — да, для повышения лояльности поисковиков — скорее нет (может один из многочисленных не самых важных факторов, не более).
Александра 28.09.2011 at 13:05

Здравствуйте,я новичок и не всё хорошо понимаю ,У меня по проверки показывает валидности HTML -791ошибок,а по проверки валидности CSS- 17 ошибок.Стоит исправлять или нет? и если стоит подскажите пожалуйста где они (ОШИБКИ) исправляются.
Tod 28.09.2011 at 23:21

Александра, исправлять ошибки в файлах шаблона блог. Нужно ли исправлять? — вопрос риторический, имхо. Многие сайты с ошибками существуют и ничего, но если разбираетесь в этом вопросе, то можете исправить.
Мохнатый 31.10.2011 at 17:54

Я считаю что валидность это не главное… Главное что бы в браузерах все было хорошо и индексировалось хорошо, даже у самого гугла есть чучуть ошибок =)
пацан 14.01.2012 at 21:21

даа пацаны, с noindex вы меня вообще убили. нравится — пользуйтесь, кто мешает то? найдите мне хоть один говнобраузер, который при наличии этого тега неправильно отображает страницу? найдите мне хоть один поисковик, который проверяет страницу на валидность? откуда вообще информация что поисковики её проверяют, где вы видели такое чудо? главное, чтобы вложенность тегов была правильная и сайт отображался нормально во всех популярных браузерах. я работаю в этой области 7 лет и знаю что говорю. я тоже иногда проверяю валидность, но я заранее знаю, что на некоторые ошибки я не стану обращать внимание. например, неизвестный тег или атрибут, если это не опечатка, я сразу отправлю в топку. или например, input должен быть внутри p или h1-h6 — тоже бред.

а новичкам дам совет. всегда следите за вложенностью тегов. это обязательно! пытайтесь по максимуму использовать возможности css, а не html. не забывайте про атрибут alt для картинок — для поисковиков полезно. вот для этого и используйте валидатор. на всё остальное просто забейте.
Tod 14.01.2012 at 22:21

пацан, все четко расписал. В целом валидность конечно не панацея, но с ее помощью можно находить ошибки и сделать сайт лучше — те же alt добавить или css стили больше использовать. Теперь когда Яша понимает nofollow, по сути, смысла в noindex нет никакого.
Игорь 02.03.2012 at 01:15

Проверил на валидность Ваш блог и свой, везде ошибки, очень много ошибок в шапке WordPress — исправляю одни, лезут по хлеще, чем были.
Юрий 05.04.2012 at 13:15

Доброго времени суток!
Сколько может стоить исправление всех ошибок на нашем сайте? И сколько это займёт по времени?
pngtools.ru
Кому интересно, просьба отписаться на почту admin@pngtools.ru
Tod 06.04.2012 at 12:29

Юрий, исправление этих ошибок не критично, но можете поискать исполнителей на сайтах фриланса.
Вадим(Новичок) 16.04.2012 at 13:20

Сущность валидации в чём? В том что пузомеркам заглушка или опасность получить «печать» от обоих известных ПС или понижение в выдаче?
Tod, чего мне бояться? Спасибо!
Tod 17.04.2012 at 12:01

Вадим, никакой опасности из-за валидации нет, по крайней мере, насколько я знаю в данный момент. Это скорее рекомендации дабы сделать ваш сайт лучше, а не жесткие требования.
Татьяна 26.04.2012 at 20:29

Не так много и ошибок.
valery12 06.08.2012 at 19:48

Вопрос на засыпку,а какой лучше плагин использовать для валидного noindex?
Tod 07.08.2012 at 12:38

valery12, сложно сказать, я перестал следить за валидным noindex. Кстати, Яндекс ведь вроде бы тоже начал понимать rel=nofollow где-то читал об этом.
nemezida 13.09.2016 at 15:50

Ребята, xeлп!! Пишу сайт, но почему-то возникают проблемы с проверкой на валидность. Но если загружу странцу на другой xост, проверку она проxодит без проблем. Не пойму, че за фигня(((
Tod 13.09.2016 at 19:16

nemezida, ну валидатор пишет какие именно ошибки возникают после проверки. Почему результат зависит от хостинга, если честно, сложно сказать.

Добавить комментарий