- Добавление страниц
- Индексирование
- Динамические сайты
- Положение страницы
- Поиск: кнопки и формы
- Типичные ошибки
- Общие вопросы
Добавление страниц
Яндекс ежедневно просматривает сотни тысяч Web-страниц в поисках изменений
или новых ссылок. Поэтому вполне возможно, что ваша страница уже находится
в базе. В поисковую машину Яндекс вносятся только русскоязычные сайты.
ВНИМАНИЕ! Если при попытке добавить свой сайт вы получили сообщение:
запрещен к индексированию, это могло произойти из-за того, что ваш сайт
является <зеркалом> другого сайта.
Например, вы пытаетесь добавить сайт в домене третьего уровня (скажем,
www.webest.net), который является <зеркалом> этого же сайта в домене
второго уровня (без префикса www, то есть webest.net). В этом случае
добавьте, пожалуйста, сайт второго уровня.
Внесите свой сайт в Яндекс
Советы по добавлению URL в поисковую машину Яндекс
- Добавляйте верхнюю страницу вашего сервера - остальные Яндекс найдет
сам по ссылкам. - ВНИМАНИЕ! Настоятельно рекомендуем НЕ добавлять недоработанные, <пустые>
страницы (без содержания, без дальнейших ссылок, under construction).
Страницы такого вида имеют низкий приоритет в очереди робота, следовательно,
придется ждать, когда робот наконец посетит этот адрес снова и узнает,
что там наконец-то появилось наполнение. Таким образом, добавление подобной
страницы не ускорит, а замедлит появление вашего содержания в нашей
базе. - Добавляйте истинный адрес вашей страницы, а не псевдоним (например,
http://chat.ru/~verylongname вместо перенаправляющего адреса
http://v.da.ru) - Яндекс все равно <отловит> redirect. - Создайте файл robots.txt,
если вы хотите закрыть какие-то разделы от индексирования (например,
из соображений секретности). - Смотрите на ответ, который выдает вам программа AddURL. Если вы ошиблись
(например, в адресе, и такой страницы не существует), то AddURL сообщит
вам об этом. - Конфигурируйте сервер так, чтобы он
корректно выдавал даты файлов и кодировки русского языка. - Если ваша страница была проиндексирована, а затем вы изменили ее содержание
или удалили ее, не беспокойтесь - робот автоматически обойдет ее снова
и обновит индекс (в случае, если страница больше не существует, она
будет исключена из базы и, следовательно, из поиска). - Проверяйте, проиндексирован
ли ресурс, не сразу, а через несколько дней после добавления в базу
Яндекса.
Как добавить свою страницу или сайт?
Как Яндекс узнает о новых страницах и серверах? Есть два способа - или
владельцы ресурсов сами добавляют сайты (заполнив форму AddURL на http://yandex.ru/addurl.html
или послав письмо на addurl@yandex.ru),
или робот сам находит новые ссылки в уже проиндексированных страницах.
Обычно робот берет со страницы сервера ссылки на последующие страницы
и таким образом перебирает все ссылки.
Яндекс индексирует российскую сеть, поэтому в поисковую машину вносятся
сервера в доменах su, ru, am, az, by, ge, kg, kz, md, ua, uz. Остальные
сервера вносятся, только если на них найден текст на русском языке, или
если владельцы ресурсов убедят администрацию поисковой машины в том, что
их сервер интересен пользователям русскоязычного Интернета (это обычно
делается письмом на addurl@yandex.ru).
Как быстро моя страница появится в Яндексе?
Обычно страницы появляются в поисковой базе в течение недели после их
появления или изменения. Новые страницы, внесенные в базу с помощью AddURL,
появятся быстрее (если они находятся в русскоязычной части сети и не требуют
ручной проверки). Сотрудники Яндекса не могут ускорить добавление страницы
в поисковую базу.
Если вы не находите свою страницу, пожалуйста, проверьте в AddURL,
включена ли она в базу Яндекса. Для этого надо попробовать добавить ее
еще раз.
- Если вы получили сообщение, что <Ваш URL __url__ был только что внесен в нашу базу данных.>, это значит, что ваш URL ранее не был добавлен. Теперь он добавлен и будет проиндексирован в ближайшее время.
- Если вы получили сообщение <Ваш URL __url__ уже известен
роботу Яндекса. Данный ресурс будет проиндексирован в ближайшее время.>,
то подождите еще пару дней. - Если вы получили сообщение <Ваш URL __url__ уже проиндексирован.
Вы можете посмотреть, какие страницы вашего сайта проиндексированы в
Яндексе к настоящему времени>, то, нажав на ссылку со слов
<проиндексированы в Яндексе>, вы получите весь список
документов вашего ресурса, проиндексированных в нашей поисковой машине.
В дальнейшем робот будет самостоятельно (автоматически) находить новые и измененные
документы. Причем частота обхода конкретного сервера зависит от зафиксированной
роботом частоты изменения его страниц.
Моя страница <переехала> или сайт поменял структуру - как внести изменения?Если у вашей страницы изменился адрес, то достаточно внести ее новый адрес
в Яндексе на странице AddURL. Изменения уже
проиндексированных страниц Яндекс отследит самостоятельно, ничего специально
делать не требуется. Старые страницы (даже если они уже удалены на самом
сервере) будут находиться в базе вплоть до очередной переиндексации и
вручную сотрудниками Яндекса не удаляются. Вы можете ускорить процесс
удаления их из базы, воспользовавшись формой на странице http://www.yandex.ru/removeurl.html
Страница описана неверно, как это исправить?
Мы часто получаем письма вроде <Я не заносил в вашу систему мой ресурс, и он описан неправильно. Как мне исправить положение?>. Или <Зарегистрируйте, пожалуйста, мой сайт (URL) со следующими ключевыми словами…>.
Обратите внимание на то, что Яндекс - это и поисковая система, и каталог. Поэтому уточняйте, какое описание вы имеете в виду.
Если речь идет о поисковой системе, то она полнотекстовая, то есть в индекс попадают (и становятся доступными для поиска) те и только те слова, которые написаны на страницах вашего сайта.
Поэтому описание страницы не может быть внесено неправильно, так как оно берется из самого документа. Поэтому же не имеет смысла присылать нам список ключевых слов.
В списке результатов поиска после адреса страницы выводится текст, который состоит из заголовка (тэг <title>), описания (тэг <meta name=”Description” content=”">) или начала документа (если этого тэга нет) и контекстов - фрагментов вашего текста, содержащих слова запроса. Если страница не находится по тем словам, по которым вам бы хотелось, или находится не в первых рядах списка, обратите внимание на нижеследующие советы.
Если же речь идет о каталоге Яндекса, то все описания в нем делаются составителями (гидами) по строгим инструкциям. Так, например, запрещены тексты рекламного характера, слова <самый>, <главный>, <уникальный>, прилагательные в превосходных степенях и т.д. Ознакомьтесь, пожалуйста, с Правилами описания ресурсов в каталоге.
Индексирование
Когда Яндекс обнаруживает новую или измененную страницу, он ее индексирует.
В процессе этого страница разбивается на элементы (текст, заголовки, подписи
к картинкам, ссылки и так далее), содержание которых заносится в индекс.
При этом учитываются позиции слов, то есть их положение в документе или
его элементе. Сам документ в базе не хранится.
Яндекс создает очень компактный индекс.
Индексирование документов
Правила индексации в машине Яндекс
Яндекс индексирует страницы по их истинным адресам. Это значит, что,
если на странице стоит redirect, робот воспримет его как ссылку на новый
адрес и внесет ее в очередь на индексирование (если она удовлетворяет
описанным выше правилам). То же самое произойдет, если в одном из фреймов
будет стоять ссылка на другой сервер. В частности, если эта ссылка находится
вне доменов, разрешенных по умолчанию, страница НЕ будет проиндексирована.
Робот Яндекс хранит дату последнего обхода каждой страницы, дату ее изменения
(присланную Web-сервером) и дату внесения последних изменений в базу поиска
(дату индексации). Он оптимизирует обход Сети таким образом, чтобы чаще
посещать наиболее изменяемые сервера. Робот Яндекс работает автоматически
и обычно переиндексация происходит раз в две-три недели.
Изменения уже проиндексированных страниц робот Яндекс отслеживает самостоятельно
при следующем заходе на сайт. У робота свой график работы и изменить его,
к сожалению, невозможно, в том числе применяя такие тэги, как
<META NAME="REVISIT-AFTER" CONTENT="..
DAYS">. Яндекс индексирует документ полностью: текст, заголовок, подписи к картинкам,
описание (description), ключевые слова и некоторую другую информацию.
Как запретить индексацию определенных страниц?
Разрешения и запрещения на индексацию берутся всеми поисковыми системами из файла robots.txt, находящегося в корневом каталоге сервера. Запрет на индексацию ряда страниц может появиться, например, из соображений секретности или из желания не индексировать одинаковые документы в разных кодировках. Чем меньше ваш сервер, тем быстрее робот его обойдет. Поэтому запретите в файле robots.txt все документы, которые не имеет смысла индексировать (например, файлы статистики или списки файлов в директориях). Обратите особое внимание на CGI или ISAPI скрипты - наш робот индексирует их наравне с другими документами.
В простейшем виде (разрешено все, кроме директории скриптов) файл robots.txt выглядит следующим образом:
Детальное описание спецификации файла можно прочитать на странице: <Стандарт исключений для роботов>.
При написании robots.txt обратите внимание на следующие часто встречающиеся ошибки:
- Строка с полем User-Agent является
обязательной и должна предшествовать строкам с полемDisallow.
Так, приведенный ниже файл robots.txt не запрещает ничего:Disallow: /cgi-binDisallow: /forum - Пустые строки в файле robots.txt являются значимыми, они разделяют
записи, относящиеся к разным роботам. Например, в следующем фрагменте
файла robots.txt строка “Disallow:” игнорируется, поскольку перед ней нет строки
/forum
с полемUser-Agent.User-Agent: *Disallow: /cgi-bin
Disallow: /forum
- Строка с полем
Disallow
может запретить индексирование документов только с одним префиксом.
Для запрета нескольких префиксов нужно написать несколько строк. Например,
нижеприведенный файл запрещает индексирование документов, начинающихся
с “/cgi-bin /forum“, которых,
скорее всего, не существует (а не документов с префиксами “/cgi-bin”
и “/forum“).User-Agent: *Disallow: /cgi-bin /forum - В строках с полем
Disallow
записываются не абсолютные, а относительные префиксы. То есть файл:User-Agent: *Disallow: www.myhost.ru/cgi-binзапрещает, например, индексирование документа
http://www.myhost.ru/www.myhost.ru/cgi-bin/counter.cgi,
но НЕ запрещает индексирование документа
http://www.myhost.ru/cgi-bin/counter.cgi. - В строках с полем
Disallow
указываются именно префиксы, а не что-нибудь еще. Так, файл:User-Agent: *Disallow: *запрещает индексирование документов, начинающихся с символа <*
> (которых в природе не существует), и сильно отличается от файла:User-Agent: *Disallow: /который запрещает индексирование всего сайта.
Если вы не можете создать/изменить файл robots.txt, то еще не все потеряно
- достаточно добавить дополнительный тег <META>
в HTML-код вашей страницы (внутри тега <HEAD>):
<META NAME="ROBOTS" CONTENT="NOINDEX">Тогда данный документ также не будет проиндексирован.
Вы также можете использовать тэг
<META NAME="ROBOTS" CONTENT="NOFOLLOW">Он означает, что робот поисковой машины не должен идти по ссылкам с данной страницы.
Для одновременного запрета индексирования страницы и обхода ссылок с нее используется тэг
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">Как запретить индексацию определенных частей текста?
Чтобы запретить индексирование определенных фрагментов текста в документе, пометьте их тегами
<NOINDEX></NOINDEX>.Внимание! Тег NOINDEX не должен нарушать вложенность других тегов. Если указать следующую ошибочную конструкцию:
запрет на индексирование будет включать не только <код1> и <код2>, но и <код3>.
Как выбрать главный виртуальный хост из нескольких зеркал?
Если ваш сайт находится на одном сервере (одном IP), но виден во внешнем мире под разными именами (зеркала, разные виртуальные хосты), Яндекс рекомендует вам выбрать то имя, под которым вы хотите быть проиндексированы. В противном случае Яндекс выберет главное зеркало самостоятельно, а остальные имена будут запрещены к индексации.
Для того, чтобы индексировалось выбранное вами зеркало, достаточно запретить
индексацию всех остальных зеркал при помощи robots.txt.
Это можно сделать, используя нестандартное
расширение robots.txt - директиву Host, в качестве ее параметра
указав имя основного зеркала. Если www.glavnoye-zerkalo.ru -
основное зеркало, то robots.txt должен выглядеть примерно так:
В целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt,
директиву Host необходимо добавлять в группе, начинающейся с записи User-Agent,
непосредственно после записей Disallow.
Аргументом директивы Host является доменное имя с номером порта (80 по умолчанию), отделенным двоеточием.
Если какой-либо сайт не указан в качестве аргумента для Host, для него подразумевается наличие
директивы Disallow: /, т.е. полный запрет индексации (при наличии в группе хотя бы одной
корректной директивы Host).
Таким образом, файлы robots.txt вида
эквивалентны и запрещают индексирование как www.otherhost.ru, так и www.myhost.ru:8080.
Параметр директивы Host обязан состоять из одного корректного имени хоста (т.е. соответствующего
RFC 952 и не являющегося IP-адресом) и допустимого номера порта. Некорректно составленные строчки Host игнорируются.
Host: www.myhost-.ruHost: www.-myhost.ru
Host: www.myhost.ru:0 Host: www.my_host.ru Host: .my-host.ru:8000 Host: my-host.ru. Host: my..host.ru Host: www.myhost.ru/ Host: www.myhost.ru:8080/ Host: http://www.myhost.ru Host: www.mysi.te Host: 213.180.194.129 Host: www.firsthost.ru,www.secondhost.ru Host: www.firsthost.ru www.secondhost.ru |
Если у вас сервер Apache, то можно вместо использования директивы Host задать robots.txt с использованием директив SSI:
<!--#if expr=" \"${HTTP_HOST}\" != \"www.главное_имя.ru\"User-Agent: *Disallow: /
<!–#endif –> |
В этом файле роботу запрещен обход всех хостов, кроме
www.главное_имя.ru.Как включать SSI, можно прочесть в документации по вашему серверу или обратиться к вашему системному администратору. Проверить результат можно, просто запросив страницы:
и т.д. Результаты должны быть разные.
Рекомендации для веб-сервера Русский Apache
В robots.txt на сайтах с русским апачем должны быть запрещены для роботов все кодировки, кроме основной.
Если кодировки разложены по портам (или серверам), то надо выдавать на разных портах (серверах) РАЗНЫЙ robots.txt. А именно, во всех файлах robots.txt для всех портов/серверов, кроме <основного>, должно быть написано:
Для этого можно использовать механизм SSI, описанный выше.
Если кодировки в вашем Apache выделяются по именам <виртуальных> директорий, то надо написать один robots.txt, в котором должны быть примерно такие строчки (в зависимости от названий директорий):
User-Agent: *Disallow: /dosDisallow: /mac
Disallow: /koi |
Как выяснить, что Yandex проиндексировал на моем сервере?
Подставьте ваш ресурс в форму на странице AddURL.
- Если вы получили сообщение, что <Ваш URL __url__ был только что внесен в нашу базу данных.>, это значит, что ваш URL ранее не был добавлен. Теперь он добавлен и будет проиндексирован в ближайшее время.
- Если вы получили сообщение <Ваш URL __url__ уже известен роботу Яndex. Данный ресурс будет проиндексирован в ближайшее время.>, то подождите еще пару дней.
- Если вы получили сообщение <Ваш URL __url__ уже проиндексирован. Вы можете посмотреть, какие страницы вашего сайта проиндексированы в Яndex.Ru к настоящему времени>, то, нажав на ссылку со слов <проиндексированы в Яndex.Ru>, вы получите весь список документов вашего ресурса, проиндексированных в нашей поисковой машине.
Динамические сайты
Робот Яндекса обходит “динамические” страницы и относится к ним в точности так же, как и
к “статическим”.
Процесс обхода роботом вашего сайта можно рассматривать как обслуживание очереди, состоящей из документов. Чем больше в этой очереди пустых, бессодержательных или совершенно одинаковых документов, тем меньше шанс у интересных и содержательных документов оказаться проиндексированными. Это означает, что вебмастеру стоит подумать, какие документы он хотел бы видеть в выдаче поисковой машины.
Такие документы:
- должны иметь постоянный адрес (URL)
- должны быть доступны и иметь осмысленное содержание вне зависимости от сессий, cookies и прочих средств идентификации пользователя. Робот - это не человек, и он не поддерживает таких средств.
- должны быть уникальны
Дубликат - это один и тот же текст, под десятком разных адресов, зависящих, например, от способа навигации по сайту. Сайты с большим числом дубликатов время от времени подвергаются безжалостной чистке.
Все страницы, не отвечающие вышеперечисленным условиям, следует закрывать от индексирования при помощи файла robots.txt. Чем больше Вы закроете “мусора”, тем лучше себя будет чувствовать “нормальное содержание”.
Положение страницы на выдаче
Положение страницы в списке результатов зависит от многих факторов. В этом разделе мы не даем рекомендации, как сделать страницу ближе к началу списка на любой запрос. В общем случае это, наверное, и невозможно. Мы советуем, как сделать страницу более адекватной и соответствующей тем запросам, по которым вы хотели бы, чтобы ее находили.
Что учитывает Яндекс при поиске?
Яндекс держит в своем индексе следующую информацию о каждом слове текста:
- номер документа
- номер предложения
- номер слова в предложении
- вес каждого слова
При поиске используется вся имеющаяся информация. При каждом запросе ищутся (и получают более высокий ранг) фразы, точно совпадающие с запросом, затем предложения, содержащие все слова запроса, и т.д. Важную роль играет относительное положение слов. Так, например, если запрос из четырех слов не имеет точного ответа в базе данных, будут отранжированы выше предложения, содержащие три слова из запроса, в которых слова стоят точно в той же последовательности, что и в запросе. Это дает возможность решать типичную поисковую задачу - искать документ по “неточному цитированию”.
Вот что определяет положение сайта на первой странице поисковой системы при запросе по одному слову.
- Частотные характеристики
- Частота слова в базе.
- Частота слова в документе
- Размер базы
- Размер документа
- Привилегированное положение слова в документе (например, заголовок) и/или наличие его в списке ключевых слов
- Присутствие слова в “авторитетных” ссылках на данный документ
- “Взвешенный индекс цитирования” документа
- Количество и ранг (”авторитетность”) всех страниц сайта с этим словом
Как сделать, чтобы мою страницу нашли те, кому она нужна?
Есть ряд советов, которые помогут пользователям найти вашу страницу.
- Задавайте уникальные заголовки документов, вкратце описывающие сайт
и текущий документ (но не более 20-25 слов). Слова в заголовках имеют
больший вес, чем остальные. - Давайте каждому документу описание в тэге description<meta name=”Description” content=”Рекомендации по написанию страниц для web-мастеров, с учетом пожеланий разработчиков поисковой системы Yandex.Web”>
- Не забывайте о ключевых словах, по возможности уникальных для каждой страницы<meta name=”Keywords” content=”rating, релевантность, relevancy, search engine, morphology, Russia, поисковая система, Россия, русский язык, морфология, CompTek, Yandex, Яндекс”>
- Делайте подписи к картинкам в тэге alt<img xsrc=”yalogo.gif” mce_src=”yalogo.gif” alt=”Яндекс” width=364 height=45 BORDER=0>
- Чем длиннее документ, тем менее заметны в нем будут слова, заданные
в запросе и, следовательно, ваша страница будет ниже в результатах поиска
при прочих равных. Старайтесь разбивать длинные документы на более короткие. - Яндекс работает только с текстами и не умеет распознавать графические
изображения. Поэтому, если название нарисовано, стоит продублировать
его в текстовом виде. - Соблюдайте правила оформления документов
- не набирайте слова в р а з р я д к у, если хотите, чтобы документ по ним находился (используйте для этого style sheet)
- не набирайте слова большими буквами без необходимости, если это не аббревиатура
- точки и запятые прижимайте к слову, за которым они стоят, после
них ставьте пробел. Иначе Яндекс не распознает их как отдельные
слова
- И, наконец, подумайте, по каким словам и фразам вы сами искали бы
сайт вашей тематики. Если ваш сайт посвящен разведению кур и вы не находите
его по слову “куроводство” - значит, это слово мало используется в документах
вашего сайта. Те, кто интересуется именно “куроводством”, могут не найти
ваш сайт. Давайте документам заголовки и редактируйте их текст соответственно
тем запросам, по которым вы бы сами стали искать свой сайт.
Как работают ключевые слова (Meta keywords)?
Если слово из основного текста документа не расценено как спам и есть в “keywords” среди первых 50, то вес этого слова в запросе повышается, то есть документ получает более высокую релевантность.. Если слово есть в “keywords”, но отсутствует в основном (видимом пользователю) тексте документа, то по умолчанию документ по этому слову не найдется. Его можно найти специальным запросом #keywords=(слово)
Это означает, что, с точки зрения Яндекса количество повторов слова в “keywords” не может “поднять” документ в результатах поиска - на ранжирование влияет совпадение фактов наличия этого слова и в ключевых словах, и в
основном тексте документа (ну и, естественно, в запросе пользователя).
Поэтому повторов в “keywords” (как и в других местах) делать не рекомендуется.
Во-первых, как сказано выше, это не помогает - вместо повторов лучше дать
другие слова или варианты (например, перевод на другие языки, синонимы,
транслитерацию и т.п.) - из тех, что есть в “видимом” тексте. Во-вторых,
может и помешать - Яндекс может посчитать слишком частотные слова спамом.
Как найти свой сайт?
Чтобы проверить, как ваша страница проиндексирована, достаточно скопировать из
нее какую-нибудь характерную строчку, лучше длинную (название, адрес, описание),
и задать ее как запрос в Яндексе. Если на первой странице списка найденного
вашей страницы не оказалось, проверьте, какие
страницы вашего сайта были проиндексированы.
Поиск со своей страницы
Вы хотите, чтобы посетители вашей страницы могли искать с нее по всему Интернету? Или вы хотите сделать так, чтобы Яндекс искал только по вашей странице или сайту, ничего при этом не устанавливая на свой сервер? Все это возможно, достаточно выполнить простые инструкции по вписыванию HTML-кода в вашу страницу.
Бесплатные дополнения
Как искать в Яндексе со своей страницы
Вы можете у себя на странице сделать форму для обращения к Яндексу. При
этом можно настроить запрос к Яндексу таким образом, чтобы на странице
выдачи результатов стояла ссылка на ваш сервер. Как сделать такой запрос,
написано на странице addyandex.html.
seo/yandex/faq.php
Может ли Яндекс искать только на моем сайте?
Может, и здесь есть два пути. Первый: ограничивать поиск Яндекса только
вашим сайтом. Например, делать поиск только в страницах с адресами www.someserv.com/mypage/*.*
Правда, в базе Яндекса вряд ли будут находиться изменения страниц, которые
вы сделали в течение недели. Как сделать такой запрос, написано на странице
addyandex.html.
ПРИМЕЧАНИЕ: поиск по вашему сайту через Яндекс будет
совершаться только по тем страницам, которые Яндекс успел проиндексировать.
Узнать список этих страниц очень просто - если в
Расширенном поиске, в разделе “Сайт/вершина”, в поле “Искать
только на данном сайте” вы укажете свой URL и нажмете кнопку “Найти”,
то в результате поиска вы увидите все страницы вашего сервера, проиндексированные
Яндексом.
Второй способ: установить одну из редакций программы Яndex.Server.
В этом случае переиндексировать данные можно любое количество раз
в день (обычно это делают раз в сутки). Кроме того, вы сможете использовать
дополнительные возможности Яndex.Server (например, поиск на сайте по рубрикам).
Кнопки для поиска, встроенные в браузер
У вас есть возможность установить на панель браузера две кнопки: для поиска во всем Интернете и для поиска по текущему сайту (страницы которого вы сейчас смотрите). Яндекс-поиск по текущему сайту удобен тогда, когда вам необходимо найти страницу на сайте, где нет поиска. Кнопка устанавливается простым перетаскиванием мышкой. Подробнее об этом вы можете прочитать на странице установки кнопок.
Ошибки
Все указанные ошибки не критичны для Яндекса, он проиндексирует страницы
в любом случае. Но они могут помешать потенциальным посетителям вашей
страницы найти ее среди миллионов других.
Типичные ошибки
Неправильно обрабатывается ошибка 404 “Not found”
Проверьте, что делают ваши скрипты в случае ошибок. Если скрипт сообщает об ошибке и при этом выдает код нормального завершения 200, то сообщение будет проиндексировано. Если же ваш скрипт вернет HTTP код 404, это сообщение об ошибке проиндексировано не будет.
Это относится и к обычным документам. Некоторые сервера настроены таким образом, что они в случае ошибки отсылают сообщение с кодом нормального завершения 200. Это мешает роботу удалить ссылку на страницу в базе данных. Любой современный web-сервер позволяет изменять стандартные сообщения об ошибках и отсылать их с правильным кодом ошибки.
Спам, или не нужно обманывать пользователя
Спам - это заголовки и ключевые слова, сдобренные большим количеством слов из самых популярных запросов, большие массивы текста, “написанные” на странице цветом фона или очень мелким шрифтом, а также многие другие уловки с целью привлечения пользователя на свои страницы обманом.
Их не стоит применять по двум причинам. Во-первых, это не добавляет славы
создателю страниц и вызывает естественное раздражение пользователей. Во-вторых,
Яндекс отслеживает такие ненормальные изменения и снижает место документа
на странице результатов. Кроме этого, спам увеличивает размер документа
и, следовательно, уменьшает контрастность слов в нем, что также влияет
на место документа в списке найденного. В случаях злостного использования
спама администрация Яндекса может исключить такие страницы и сайты из
базы.
Страницы со временем перенаправления на другие страницы (redirect) равным нулю также исключаются из индексирования.
Поиск в Яндексе не решает задачу “раскрутки сайтов”, он решает задачу удовлетворения потребности пользователя в нужной ему информации. Желающие раскрутить свой сайт с помощью Яндекса, однако, тоже могут это сделать, разместив у нас рекламу. Условия размещения рекламы можно прочитать по адресу: http://www.yandex.ru/advertising/.
На Яндексе работает поиск и сортировка по датам, но в 20% случаев серверы
не выдают реальную дату изменения файлов. Настройте свой сервер правильно.
Не лишайте пользователя дополнительной информации и воспользуйтесь возможностью
корректно показать свои страницы при поиске по датам.
Веб-сервер, вместе с самим HTML-документом, присылает также дополнительную информацию в так называемых “заголовках HTTP”. В частности, он может присылать дату последнего изменения документа в заголовке “Last-Modified”. Настоятельно рекомендуем, чтобы ваш веб-сервер присылал эту дату. Добиться этого можно, соответствующим образом настроив сервер и, возможно, слегка исправив используемые CGI или ISAPI скрипты.
Веб-сервер, вместе с самим HTML-документом, присылает также дополнительную информацию в так называемых “заголовках HTTP”. В частности, кодировка документа указывается в заголовке “Content-Type”, параметр charset, например, так:
Content-Type: text/html; charset=windows-1251
Content-Type: text/html; charset=koi8-r
Веб-сервер должен указывать кодировку всех документов, написанных не на английском языке. Если кодировка не указана, пользователь будет вынужден самостоятельно устанавливать кодировку в браузере, что очень неудобно. Заставить сервер присылать кодировку можно, исправив конфигурацию сервера.
Индексирование одинаковых документов в разных кодировках
Много ресурсов расходуется впустую при индексации одних и тех же документов, выдаваемых web-серверами в разных кодировках. При этом русские поисковые системы все равно держат в базах документы в одной из кодировок. Рекомендуется запрещать для индексирования все кодировки, кроме одной. Если кодировки выдаются по портам серверам, то надо выдавать на разных портах (серверах) разный robots.txt. Это значит, во всех портах/серверах, кроме основного, должно быть написано
Если кодировки выдаются, к примеру, по директориям, то надо сделать один файл robots.txt, в котором будет написано
Индексирование одного сайта на разных серверах
Эта проблема возникает, когда у сервера существуют зеркала, и/или кодировки делаются префиксами в имени хоста, например, для хоста www.chto-to.ru:
win.chto-to.ru, koi-www.chto-to.ru, wwwmac.chto-to.ru и т.д.
Робот не в состоянии самостоятельно определить “главный” адрес. Единственное,
что он может делать (и делает) - это определить, что два документа совпадают с точностью до кодировок, и проиндексировать только один из них.
Таким образом, может оказаться, что разные части вашего сайта проиндексированы на разных хостах. Если вы хотите, чтобы весь ваш сайт был проиндексирован по одному адресу (хосту), запретите индексацию остальных, задав соответствующий файл robots.txt. Через некоторое время (по мере обхода роботом) все проиндексированные документы будут ссылаться на этот хост.
Не стоит открывать для роботов поисковых машин содержимое своего сайта под разными именами или портами. Это НЕ даст улучшения индексации вашего сайта, а, наоборот, приведет к излишней нагрузке на ваш сервер и сеть, а также может вызвать самые разные отрицательные эффекты.
Например, поисковые системы часто не в состоянии понять, какие “зеркала” вашего сайта являются главными, и могут выбрать из них произвольное, не согласующееся с вашими ожиданиями. Некоторые поисковые системы (напр.
Альтависта) вообще могут удалить серверы с повторяющимся содержанием.
Для решения этой проблемы ваш сайт robots.txt (находящийся в корневой директории сервера), стоит написать так, чтобы запретить в нем индексирование всех “не основных” адресов.
Перечисленные выше проблемы присущи всем серверам, с установленным на них
веб-сервером “Русский Apache”. “Русский Apache” содержит механизм выдачи одного
и того же документа в разных кодировках под разным URL. В результате роботы сканируют
ваш сервер несколько раз, а именно - столько, сколько установлено кодировок. При
этом роботы отечественных поисковых машин это учитывают и используют алгоритмы
автоматического определения кодировок, чтобы слить все варианты в один документ.
Принятая в “Русском Apache” система попарных перекодирующих таблиц, редактируемых
пользователем, приводит к появлению нестандартных и некорректных символов в теле
документов. Из-за этого документы при “формальном” сравнении отличаются и, таким
образом, остаются неслитыми. Вот наши рекомендации, специально для веб-сервера
“Русский Apache”.
Общие вопросы
Здесь приведены ответы на вопросы, которые наиболее часто задают администраторам
Яндекса.
Почему я не могу найти свой сайт по своему запросу?
Посмотрите на статистику запроса,
выдаваемую в результатах поиска. Может быть, документы вашего сервера
просто находятся по второй сотне или даже тысяче результатов? Положение
можно исправить, воспользовавшись нашими <Советами
вебмастеру>.
Как выяснить, что Яндекс проиндексировал на моем сервере, см.
на этой странице.
Почему на моем сайте проиндексированы только несколько “верхних” страниц?
Робот обходит Интернет <послойно>. Когда робот обнаруживает новую страницу, он ее индексирует. Затем берет с нее ссылки на последующие страницы, и таким образом обходит весь сайт. В среднем небольшой сайт
индексируется за пару недель. Чем меньше сервер, тем быстрее робот
его обойдет.
Робот оптимизирует обход Сети таким образом, чтобы чаще
посещать наиболее изменяемые сервера. Поэтому не торопитесь добавлять свой сайт, если он состоит из одной страницы с надписью UNDER CONSTRUCTION.
Робот Яндекса работает самостоятельно (в автоматическом режиме). Если
сайт включен в базу Яндекса, то он будет последовательно обойден роботом.
ВНИМАНИЕ! Робот работает со стандартными ссылками языка HTML (href, link и frame), то есть так, как работал бы пользователь с отключенными Java и Java script. Если ссылки на страницы вашего сайта сделаны с помощью скриптов, надо добавить URL этих страниц через форму AddURL.
Мой сайт внесен в вашу базу без названия - добавьте, пожалуйста, заголовок и ключевые слова.
Обратите внимание на то, что Яндекс - это и поисковая система,
и каталог. Поэтому уточняйте, какое описание вы имеете в виду. Каталог
- это, как правило, база данных, в которой хранится ресурс (адрес)
и его описание.
Описание ресурса на Яндексе делается составителями каталога (гидами) по
строгим инструкциям. Так, например, запрещены тексты рекламного характера,
слова <самый>, <главный>, <уникальный>,
прилагательные в превосходных степенях и т.д. Ознакомьтесь, пожалуйста,
с Правилами описания ресурсов
в каталоге.
Поисковая машина поступает по другому. Ее сетевой агент (робот, паук,
червяк) обходит все заданные ему сервера и собирает у себя индекс, то
есть информацию о словах и их адресах.
Яндекс - полнотекстовая поисковая система, то есть в индекс попадают
все слова, найденные на Web-странице. Адресом слова в Яндексе являются
документ (URL), номер предложения и номер слова внутри предложения.
Все слова, попавшие в индекс, являются доступными для поиска. Таким образом,
то, как ваш сайт выглядит при поиске в Яндексе, зависит только от вас.
Принимаете ли вы ресурсы, которые размещены на иностранных сайтах
(бесплатный хостинг)?
Да, мы индексируем такие ресурсы, если они содержат тексты на русском
языке и/или принадлежат российским людям и компаниям.
Исключением являются сервера, на которых провайдер (обычно с целью показа
собственной рекламы) использует датчик случайных чисел для генерации истинных
адресов документов. Обычно это выглядит так: по нормальному адресу
выдается фрейм, в котором верхнее окно - реклама провайдера, а нижнее
- собственно сайт клиента. При этом URL нижнего окна выглядит, например,
как
http://members.theglobe.com/julia76/poetry.html?nfhp=943345400&rld=53977687
или
http://freehosting2.at.webjump.com/390d280a0/cu/customs-webjump/right.html
Последовательности, выделенные жирным шрифтом, меняются при каждом новом
заходе на сайт. Естественно, индексировать страницы с переменными адресами
бессмысленно - их никогда нельзя будет найти по ссылке.
© webest.info, 2005-2007