Воскресенье, 24.11.2024, 20:23
Главная Регистрация RSS
Приветствую Вас, Гость
[ Новые сообщения · Участники · Правила форума · Поиск · RSS ]
  • Страница 1 из 1
  • 1
PageRank Google'а и как получить его по максимуму
OdisseiДата: Воскресенье, 20.05.2007, 01:20 | Сообщение # 1
†OwneR†
Группа: ☭OwneR☭
Сообщений: 722
Репутация: 11
Статус: Offline
Причина, по которой появилась эта статья

Не так давно мне попалась на глаза одна широко известная статья «Что такое ПэйджРанк», к которой большинство людей обращается, когда хочет уяснить для себя вопрос — что такое ПэйджРанк, и как он работает. Если честно, то я и сам ей пользовался. Однако, когда я писал Калькулятор ПэйджРанка, мне пришло в голову, что эта статья неверна с точки зрения производимых вычислений. В ней используется своя собственная форма ПэйджРанка, которую автор называет «мини-ранк». Мини-ранк, по непонятным причинам, использует формулу, отличную от Гугловского ПэйджРанка, из-за чего результаты вычислений становятся неверными.

Несмотря на то, что в результате написания этой и последующей статей автор отрицает мини-ранк, оригинальная статья о мини-ранке остается в интернете. Поэтому, если вам известна статья «Что такое ПэйджРанк», то лучше о ней забыть.

Что же такое ПэйджРанк?

ПэйджРанк представляет собой численное значение, которое отражает, насколько значима данная страница в интернете. Гугл полагает, что когда одна страница ссылается на другую, она словно «отдает свой голос» за другую страницу. Тогда, чем больше голосов отдано за страницу, тем важнее эта страница должна быть. Кроме того, — и это важно! — «отданные голоса» отличаются по значимости в зависимости от того, «кто» голосует. Гугл подсчитывает важность оцениваемой страницы, исходя из «голосов», отданных за нее. При этом в процессе производства расчетов Гугл учитывает, насколько важен (весом) каждый из отданных «голосов».

Таким образом, ПэйджРанк Гугла — это его собственный способ определения важности оцениваемой страницы. Это весьма важно, потому что ПэйджРанк является одним из факторов, определяющих порядок вывода результатов поиска. Это не единственный фактор, который Гугл использует для оценки страниц, но один из важнейших.

Начиная с этого момента, мы будем использовать термин «ПэйджРанк» в сокращенной форме как «PR».

Примечания:

Далеко не все ссылки учитываются Гуглом. Так, Гугл жестко отфильтровывает ссылки, имеющиеся на известных «фермах ссылок» (специально созданных совокупностях веб-документов, искусственно созданных для увеличения «веса» тех или иных веб-ресурсов). Некоторые ссылки даже приводят к «наказанию» страницы, на которую они ведут, со стороны Гугла. Понятно, что вебмастера не могут контролировать, какие сайты ссылаются на их сайты, но они должны понимать, какие ссылки они сами проставляют на другие сайты. По этой причине, ссылки, проставленные внутри одного отдельно взятого сайта, не могут ему навредить, тогда как ссылки, ведущие вовне сайта, могут быть «вредными», если они ведут на «наказанные» сайты. Поэтому будьте осторожны, когда ставите ссылки на внешние ресурсы. Если PR сайта составляет 0, то это обычно следует в результате наказания, и будет недальновидно проставлять ссылку на такой сайт.


 
OdisseiДата: Воскресенье, 20.05.2007, 01:22 | Сообщение # 2
†OwneR†
Группа: ☭OwneR☭
Сообщений: 722
Репутация: 11
Статус: Offline
Как рассчитывается ПэйджРанк?

При расчете ПэйджРанка страницы, учитываются все входящие (ведущие на нее) ссылки. Это ссылки, ведущие на нее изнутри сайта, и ссылки, ведущие на нее извне сайта.

PR(A) = (1-d) + d(PR(t1)/C(t1) + … + PR(tn)/C(tn))

Вот по этому уравнению и рассчитывается ПэйджРанк. Именно эта формула для расчетов была опубликована, когда расчет ПэйджРанка только вводился в эксплуатацию. Вполне возможно, что к настоящему времени формула претерпела целый ряд модификаций, однако Гугл в открытой печати об этом не сообщал. Однако, это не суть важно, поскольку само исходное уравнение достаточно хорошо.

В этом уравнении «t1 — tn» — это страницы, ссылающиеся на страницу A, «C» — количество выходящих вовне ссылок, а «d» — демпфирующий фактор, которому обычно присваивается значение 0.85.

Мы можем записать его в более простом виде:

ПэйджРанк страницы A = 0.15 + 0.85 * («доля» ПэйджРанка каждой страницы, которая ссылается на нашу страницу A)

где «доля» есть ни что иное как ПэйджРанк ссылающихся на страницу A других страниц разделенный на количество выходящих со страницы ссылок.

Страница «голосует» частичкой своего ПэйджРанка за каждую страницу, на которую она ссылается. Доля ПэйджРанка, которая передается в процессе «голосования», немногим меньше собственного ПэйджРанка этой страницы (а именно — значение собственного ПэйджРанка * 0.85). Это значение равномерно делится между всеми страницами, на которые стоят ссылки с данной страницы.

Исходя из этого, мы можем заключить, что ссылка со страницы, имеющей PR 4 и 5 выходящих вовне ссылок, хуже, чем ссылка со страницы с PR 8 и 100 выходящими вовне ссылками. ПэйджРанк страницы, которая ссылается на вашу, важен. Однако количество ссылок на этой странице, которая ссылается на вас, также важно. Чем больше внешних ссылок находится на ссылающейся на вас странице, тем меньшее количество ПэйджРанка ваша страница получит от нее.

Если «шаг» между значениями ПэйджРанка PR 1, PR 2…… PR 10 один и тот же, то приведенное выше заключение справедливо. Однако многие считают, что значения, лежащие между PR 1 и PR 10 изменяются по логарифмической шкале, и существуют веские причины, чтобы считать это правдой. Никто за пределами Гугла не знает наверняка, какое утверждение справедливо — первое или второе, — но очень велики шансы, что шкала именно логарифмическая, или схожая с последней. Коль скоро так, это означает, что, для того чтобы добраться до более высокого уровня ПэйджРанка, требуется значительно больше абсолютного значения, чем потребовалось странице, чтобы добраться до предыдущей градации. Тогда, предыдущее заключение приобретает прямо противоположный смысл: ссылка со страницы, имеющей PR 8 и множество выходящих вовне ссылок, хуже, чем ссылка со страницы, имеющей PR 4 и всего несколько выходящих вовне ссылок.

Вне зависимости от того, какой шкалой на самом деле пользуется Гугл, нам четко ясна одна вещь, а именно: ссылка с внешнего сайта изменяет ПэйджРанк вашего сайта. Помните об этом во избежание получения ссылок с «ферм ссылок».

Следует особо отметить, что когда страница «голосует» своим значением ПэйджРанка за другие страницы, ее собственное значение ПэйджРанка не понижается на размер значения, которым она «голосует». Значение ПэйджРанка не отдается вовне. Просто происходит процесс «голосования» в соответствии с весом ПэйджРанка того, кто голосует. Это как на собрании акционеров компании, когда каждый акционер голосует в соответствии с размером своего пакета акций; однако, при этом размер пакета акций не изменяется. Однако, страницы теряют часть своего значения ПэйджРанка непрямым путем, как мы увидим несколько позже.

Все ясно? Отлично. А теперь обратимся к вопросу о том, как на самом деле производятся вычисления.

При каждом расчете ПэйджРанка страницы ее существующий ПэйджРанк обнуляется, и расчеты производятся заново. Это делается потому, что за время, прошедшее с последнего вычисления, количество и качество ссылок, входящих извне на страницу, могло претерпеть изменения.

Из приведенного нами выше уравнения вполне понятно, как получается значение ПэйджРанка для страницы. Однако, существуют определенные тонкости. Представим себе, что у нас есть две страницы, A и B, каждая из которых ссылается на другую, и больше на них нет никаких ссылок. Тогда получается следующее:

Шаг 1: Расчет ПэйджРанка страницы A по весу входящих на нее ссылок

У страницы A теперь имеется новое значение ПэйджРанка. В расчетах используется значение для ссылки, входящей со страницы B. Но страница B, как мы уже говорили, тоже имеет входящую извне ссылку (со страницы A), а ее новое значение ПэйджРанка еще не рассчитано. Поэтому новое значение ПэйджРанка для страницы A базируется на неточных данных, и поэтому само не может быть точным.

Шаг 2: Расчет ПэйджРанка страницы B по весу входящих на нее ссылок

У страницы B теперь имеется новое значение ПэйджРанка. Но оно не может быть точным, потому что при его расчете используется новое значение ПэйджРанка, превходящее от ведущей извне ссылки со страницы A, которое неточно.

Это ситуация из «Уловки-22». Мы не можем получить значение ПэйджРанка для страницы A, пока нам не будет достоверно известно значение ПэйджРанка для страницы B; и мы не можем получить значение ПэйджРанка для страницы B, пока нам не будет достоверно известно значение ПэйджРанка для страницы A.

Теперь, если для обеих страниц мы имеем вновь рассчитанные значения ПэйджРанка, достаточно ли нам запустить вычисления вновь, чтобы получить корректный результат? Нет, не достаточно. Мы можем запускать вычисления снова и снова, базируясь на все более точных результатах, но эти результаты никогда не будут полностью точными, и, следовательно, наши финальные подсчеты будут неточными всегда.

Проблема решается неоднократными повторами процесса вычисления. С каждым разом при вычислениях получаются все более и более точные значения. На самом деле, получить точные значения невозможно, однако, пройдя от 40 до 50 последовательных итераций, мы приходим к ситуации, когда последующие дополнительные итерации не дают существенной добавки к точности вычисленных значений. Именно таким путем и идет Гугл при производстве каждой корректировки; и именно поэтому корректировка занимает так много времени.

Всегда следует помнить, что при производстве вычислений получается относительный (пропорциональный) результат. Получаемые результаты затем откладываются на шкале, принцип градуировки которой достоверно точно известен лишь самому Гуглу, и только после этого получается текущее значение ПэйджРанка для каждой страницы. Но даже и в таких условиях, мы можем пользоваться расчетами, чтобы понять распределение ПэйджРанка внутри сайта и ответить на вопрос, почему одни страницы сайта имеют более высокое значение ПэйджРанка, нежели другие.

Примечания:

Вы, возможно, слышали версию о том, что все считается именно так, как мы отмечали выше, но при каждой итерации результаты складываются с предшествующими значениями вычислений ПэйджРанка. Новое значение (результат + предшествующий ПэйджРанк) затем якобы используется когда происходит вычисление передачи ПэйджРанка другим страницам. Эта версия неверна по следующим причинам:

1. Они используют то же самое уравнение, но в измененном виде:

с PR(A) = (1-d) + d(……) на PR(A) = PR(A) + (1-d) + d(……)

Это и неверно, и не нужно.

2. Мы рассмотрим вопрос о том, как строить ссылки таким образом, чтобы некоторые страницы получали большую долю ПэйджРанка, чем остальные. В процессе вычислительных итераций имеет место добавление к существующему ПэйджРанку страницы других значений, нежели следует из опубликованного уравнения. А, поскольку это так, то добавления производятся по другому алгоритму и уравнение, о котором идет речь, неверно.

В соответствии с опубликованным уравнением, расчеты по каждой странице начинаются с самого начала при каждой вычислительной итерации. Результат зависит исключительно от входящих ссылок. Идея «добавления к существующему ПэйджРанку» не позволяет делать этого, поэтому получаемые таким путем результаты всегда неверны.


 
OdisseiДата: Воскресенье, 20.05.2007, 01:24 | Сообщение # 3
†OwneR†
Группа: ☭OwneR☭
Сообщений: 722
Репутация: 11
Статус: Offline
Расстановка внутренних ссылок

Факт: Веб-сайт имеет максимальное значение ПэйджРанка, которое распространяется по его страницам с помощью внутренних ссылок.

Максимальное значение ПэйджРанка сайта эквивалентно количеству страниц на сайте, умноженному на единицу. Оно увеличивается входящими извне ссылками с других сайтов и снижается уходящими вовне ссылками на другие сайты. Сейчас мы говорим о значении ПэйджРанка для всего сайта и не затрагиваем ПэйджРанк каждой индивидуальной страницы. Вы не должны принимать мои доводы на веру, вы и сами можете прийти к тому же самому заключению, взяв карандаш и лист бумаги, и произведя небольшие расчеты.

Факт: Максимальное значение ПэйджРанка сайта тем выше, чем больше количество страниц на этом сайте.

Чем больше страниц имеет сайт, тем выше его ПэйджРанк. И снова — вы можете прийти к такому же заключению с карандашом и листом бумаги. При этом помните, что во внимание берутся только те страницы, о существовании которых Гугл знает.

Факт: Неграмотная расстановка внутренних ссылок ведет к снижению ПэйджРанка сайта, но сверхграмотная расстановка внутренних ссылок не способна его повысить.

Плохая постановка внутренних ссылок снижает ПэйджРанк сайта, но не существует способа повысить ПэйджРанк с помощью внутренних ссылок. Единственный путь повышения ПэйджРанка — это получение большего числа входящих извне ссылок и/или увеличение количества страниц на сайте.

Предостережение: Хотя я настоятельно рекомендую создавать новые страницы и добавлять их на сайт, тем не менее, существуют определенные виды страниц, которые создавать и добавлять категорически нельзя. Это страницы, полностью или частично попадающие под определение «cookie-cutters» («обрезчики куков»). Гугл распознает их как спам, что включает его внутреннюю систему тревоги не только по отношению к самим этим страницам, но и к сайту в целом. А заканчивается все «наказанием» сайта в целом. Новые страницы должны содержать только качественный контент — это основное и важнейшее требование.

Что мы будем делать с этим «всеобщим» ПэйджРанком?

Теперь рассмотрим некоторые примеры вычислений, чтобы понять, каким образом можно манипулировать ПэйджРанком сайта. Однако, прежде чем сделать это, следует обратить внимание на тот факт, что веб-страница включается в индекс Гугла только тогда, когда существует хотя бы одна другая страница в интернете, которая на нее ссылается. Так заявляет сам Гугл. Если страницы нет в индексе Гугла, то никакие ссылки с нее не учитываются при производстве расчетов.

На самом деле, мы можем пренебречь этим фактом, в основном потому что другие документы на тему «Объяснение ПэйджРанка» также им пренебрегают. Так, вот этот калькулятор работает в двух режимах: «простом» и «реальном». В «простом» режиме подразумевается, что вычисления производятся для страниц, все из которых находятся в индексе Гугла, вне зависимости от того, ссылаются ли на них какие-либо другие страницы. В «реальном» режиме расчеты для страниц, не находящихся в индексе Гугла, не принимаются во внимание. Следующие ниже примеры относятся к результатам, получаемым в «простом» режиме.

Давайте представим себе сайт, состоящий из трех страниц (страницы A, B и C), на которые не проставлены ссылки извне этого сайта. Мы присвоим каждой странице изначальное значение ПэйджРанка в 1, хотя, на самом деле, неважно, с какого значения мы начнем — с 1, с 0 или с 99. Даже если назначить эту цифру в несколько миллионов, после ряда последовательных вычислительных итераций конечный результат будет тем же самым. Просто, стартуя с 1, нам понадобится меньшее количество итераций, нежели начиная отсчет с 0 или любого другого значения. Вы можете следить за расчетами с помощью карандаша и бумаги, или использовать калькулятор.

Максимальный ПэйджРанк сайта — это количество ПэйджРанка внутри сайта. Мы имеем три страницы, значит, максимальный ПэйджРанк для него равняется 3.

На текущий момент, ни на одной из страниц нет ссылки на любую другую, и никакие другие страницы не ссылаются на эти три. Если вы однократно произведете вычисления для каждой страницы, вы получите значение ПэйджРанка для каждой из них, равное 0.15. Совершенно неважно, какое количество вычислительных итераций вы пройдете — ПэйджРанк каждой страницы будет оставаться равным 0.15. Общий ПэйджРанк сайта будет составлять 0.45. хотя в идеале может равняться 3. Сайт серьезнейшим образом теряет большую часть своего потенциально возможного ПэйджРанка.

Пример 1

Теперь начнем снова с каждой страницы, которой присвоен PR 1. Поставим ссылку со страницы A на страницу B и произведем вычисления вновь для каждой из страниц. Вот что мы получим:

Страница A = 0.15 Страница B = 1 Страница C = 0.15

Страница A «проголосовала» за страницу B и, в результате, ПэйджРанк страницы B увеличился. Это неплохо смотрится для страницы B, но лишь в первой итерации — мы ведь не приняли во внимание описанную выше ситуацию из «Уловки-22». А теперь посмотрим, как изменятся цифры после большего количества вычислительных итераций.

После 100 итераций имеем:

Страница A = 0.15 Страница B = 0.2775 Страница C = 0.15

Этот результат остается неплохим для страницы B, но уже не настолько хорошим, каким он был ранее. Полученные результаты теперь выглядят более реалистично. Таким образом, общий ПэйджРанк сайта теперь составляет 0.5775, что немного лучше, но все же только небольшая часть того значения, которое может иметь место.

Примечание:

С технической точки зрения, эти результаты неверны в связи со специфическим отношением Гугла к так называемым «dangling links» («свисающим ссылкам»), но их можно использовать в качестве примера расчетов.

Пример 2

Попробуем другую структуру ссылок. Разместим на каждой из страниц ссылки на все оставшиеся страницы. Снова присвоим каждой из страниц PR, равный 1:

Страница A = 1 Страница B = 1 Страница C = 1

Теперь мы достигли максимума. Неважно, сколько вычислительных итераций будет произведено, — для каждой страницы PR будет составлять 1. Те же самые результаты мы получим при создании цикличной ссылочной структуры (то есть когда A ссылается на B, B ссылается на C, and C ссылается на D). Посмотрите, как это выглядит на калькуляторе.

Полученный нами результат свидетельствует, что, благодаря плохой структуре ссылок, очень легко потерять ПэйджРанк, тогда как при разумной простановке ссылок мы можем достичь его максимально возможной величины. Но мы не ставим себе целью достичь ситуации, когда каждая страница на сайте будет иметь одинаковую долю ПэйджРанка. Мы желаем, чтобы одна или несколько страниц имели большую долю ПэйджРанка за счет других страниц. К таким страницам мы относим индексную страницу, центральные смысловые страницы («hub pages») и страницы, которые оптимизированы под определенные поисковые запросы. Сейчас мы располагаем всего тремя страницами, поэтому мы наращиваем ПэйджРанк индексной страницы — страницы A. Это прекрасно иллюстрирует идею перераспределения ПэйджРанка.

Пример 3

Теперь попробуем поступить следующим образом. Разместим на странице A ссылки на B и C. Также на страницах B и C разместим ссылку на страницу A. Начнем расчеты со значения PR, равного 1 для каждой из страниц. После первой итерации получаем:

Страница A = 1.85 Страница B = 0.575 Страница C = 0.575

А после 100 итераций результат трансформируется в:

Страница A = 1.459459 Страница B = 0.7702703 Страница C = 0.7702703

В обоих случаях, общее значение ПэйджРанка сайта составляет 3 (это максимум), то есть ничего не теряется. Кроме того, в обоих случаях наглядно видно, что страница A имеет гораздо большую долю ПэйджРанка, чем две другие страницы. Так происходит потому, что страницы B и C передают свои доли ПэйджРанка только странице A и никаким другим страницам. Иными словами, мы получили управляемый механизм передачи доли ПэйджРанка в ту область сайта, в какую мы хотим.

Пример 4

В заключение, сохраним предшествующую ссылочную структуру, и добавим ссылку со страницы C на страницу B. Вновь начнем с PR, равного 1 для всех страниц. После первой итерации получим:

Страница A = 1.425 Страница B = 1 Страница C = 0.575

По сравнению с результатами первой итерации из предыдущего примера, страница A потеряла некоторую долю ПэйджРанка, страница B немного приобрела, а страница C осталась на том же самом уровне. Страница C теперь делит свои «голоса» между страницами A и B. Ранее же страница A получала все «голоса». Именно поэтому страница A потеряла, а страница B — приобрела. По результатам 100 вычислительных итераций получаем:

Страница A = 1.298245 Страница B = 0.9999999 Страница C = 0.7017543

Когда пыль наконец осела, страница C потеряла немного в своем ПэйджРанке, поскольку, деля теперь «голоса» между A иB, вместо того чтобы отдавать их все на A, страница A отдает странице C через ссылку с A на C. Таким образом, добавление дополнительной выходящей вовне ссылки со страницы вызывает потерю части ПэйджРанка этой страницы непрямым образом, если любая из страниц, на которую поставлена ссылка, возвращает ссылку назад. Если же страницы, на которые проставлены ссылки, не возвращают ссылки назад, то потери ПэйджРанка страницы не происходит. Если представить себе более жизненную ситуацию, когда ссылка возвращается непрямым образом (страница ссылается на другую страницу, другая — на третью, и так далее, пока N-ная страница не возвратит ссылку на первую), то потери ПэйджРанка первой страницы незначительны. Это не так важно, если речь идет о внутренних ссылках на сайте, но приобретает особое значение, когда ссылки ведут вовне сайта.

Пример 5: новые страницы

Добавление новых страниц на сайт представляет собой важный механизм повышения общего ПэйджРанка сайта, поскольку каждая новая страница добавляет в среднем PR 1 к общему значению. Когда мы занимаемся добавлением новых страниц, их новый ПэйджРанк может передаваться уже существующим важным страницам. Воспользуемся калькулятором для демонстрации.

Давайте добавим три новых страницы к структуре, описанной нами в примере 3 [смотрим]. Итак, есть три новые страницы, но они пока особо не влияют на ситуацию. Небольшое увеличение общего ПэйджРанка, и по 0.15 на новую страницу — это все что мы видим. А теперь давайте проставим с них ссылки на сайт.

Поставим ссылки с каждой из новых страниц на важную страницу, в нашем случае — на страницу A [смотрим]. При этом мы видим, что суммарный ПэйджРанк удвоился, с 3 (когда не было новых страниц) до 6. Кроме того, и ПэйджРанк страницы A также практически удвоился.

Одна-единственная вещь неправильна в нашей модели. Новые страницы — это «сироты». Они не могут попасть в индекс Гугла, и поэтому не могут добавить никакого ПэйджРанка сайту, и не могут передать никакой доли ПэйджРанка странице A. Каждая из них нуждается в том, чтобы получить ссылку хотя бы с одной из других страниц. Если страница A — это важная страница, то лучшая страница для размещения таких ссылок, это, конечно же, страница A [смотрим]. Вы можете сколь угодно долго развлекаться подбором вариантов расстановки ссылок, но, с «точки зрения» страницы A, она не считает себя самым лучшим местом для размещения ссылок.

Таким образом, постановка ссылок с одной страницы на большое количество страниц, в случае, если вы заводите сразу много новых страниц, не является хорошей идеей. В этом случае вы получаете распыление ПэйджРанка этой важной страницы. Высока вероятность, что на сайте присутствует более одной важной страницы, поэтому можно использовать простановку прямых и обратных ссылок между важными и новыми страницами. Вы можете воспользоваться калькулятором, чтобы испробовать несколько различных мини-моделей сайта с тем, чтобы найти лучшее размещение ссылок, которое обеспечивает наилучшие результаты с точки зрения уровня ПэйджРанка для важных страниц.

Заключение по примерам

Вы наглядно видите, что, благодаря организации внутренней ссылочной структуры сайта, возможно обеспечить передачу ПэйджРанка отдельным его страницам. Внутренние страницы сайта следует создавать с учетом перераспределения ПэйджРанка, но это работает лишь в том случае, когда Гугл знает об их существовании. Поэтому следует строить политику таким образом, чтобы роботы Гугла своевременно их индексировали.

Входящие и выходящие ссылки

Можно дать определенные примеры, но гораздо лучше почитать о них ниже, и немного побаловаться с моделями, опять же используя уже знакомый нам калькулятор.

Вопросы

Когда одна страница содержит множество ссылок на другую страницу, все ли ссылки учитываются?

Иными словами, если страница A однократно ссылается на страницу B и 3 раза на страницу C, получает ли страница C 3/4 доли делимого ПэйджРанка от страницы A?

Концепция ПэйджРанка заключается в том, что страница «отдает голос» за одну или более других страниц. В оригинальном документе от Гугла, описывающем ПэйджРанк, ничего не говорится о «голосовании» более чем одной ссылкой за одну страницу. Такая идея подрывает концепцию ПэйджРанка, и вполне определенно, если допустить, что она справедлива, открывает простор для манипуляций в области изменения пропорций передачи «голосов» для ряда страниц. Коль скоро вам нужна ссылка на не важную страницу, добавьте с нее несколько ссылок на важную страницу для минимизации негативного эффекта.

Поскольку нам не удалось получить от Гугла определенного ответа на эту тему, разумно предполагать, что страница может передать другой странице только один «голос», и что дополнительные «голоса», исходящие с одной страницы, не учитываются.

Когда страница ссылается сама на себя, учитывается ли такая ссылка?

Вернемся снова к основной концепции. Она заключается в том, что страница может «голосовать» за другие страницы. В оригинальном документе от Гугла ничего не сказано о том, что страницы могут отдавать свои «голоса» сами за себя. Поэтому такая идея противоречит концепции и, опять же, открывает простор для недобросовестных манипуляций результатами. По этим причинам, разумно считать, что страница не может голосовать сама за себя, и что такие ссылки не учитываются.


 
OdisseiДата: Воскресенье, 20.05.2007, 01:25 | Сообщение # 4
†OwneR†
Группа: ☭OwneR☭
Сообщений: 722
Репутация: 11
Статус: Offline
Свисающие ссылки

«Свисающие ссылки представляют собой такие ссылки, которые ведут на страницу, с которой нет ни одной выходящей ссылки. Они приносят ущерб модели, поскольку непонятно, каким образом перераспределяется их вес. А таких ссылок — великое множество. Часто эти свисающие ссылки ведут на страницы, которые мы никогда еще не загружали. Поскольку свисающие ссылки не влияют на оценку ПэйджРанка других страниц непосредственным образом, мы просто удаляем их из системы до тех пор, пока все расчеты ПэйджРанка не будут произведены. Когда же расчеты завершены, все величины ПэйджРанка известны, эти ссылки снова добавляются в базу и уже не влияют на порядок вещей существенным образом», — так звучит выдержка из оригинального документа о ПэйджРанке, написанного основателями Гугла Сергеем Брином и Лоренсом Пэйджем.

Итак, свисающая ссылка — это ссылка, ведущая на страницу, которая не имеет выходящих с нее ссылок, или ссылка на страницу, которую Гугл не индексирует. В обоих случаях, Гугл удаляет такую ссылку из базы сразу после начала процесса расчетов ПэйджРанка, и возвращает ее незадолго до того, как расчет заканчивается. Тогда влияние таких ссылок на результаты расчета ПэйджРанка минимально.

Результаты, показанные в примере 1 (правая диаграмма — здесь см. диаграмму вверху (Прим. Перев.)), неверны, поскольку страница B не имеет ссылок, выходящих с нее, и поэтому ссылка со страницы A на страницу B является свисающей, и должна быть удалена из расчетов. Поэтому в результате расчетов окажется, что все три страницы имеют PR поровну, а именно 0.15.

Возможно, в целях повышения функциональности конкретного сайта, можно проставлять ссылки на страницы, которые не имеют выходных ссылок, причем делать это без потерь ПэйджРанка, но это опасно с точки зрения снижения потенциального ПэйджРанка. Взглянем вот на этот пример. Потенциальное значение для этого сайта составляет 5, поскольку он содержит 5 страниц, но без вовлечения страницы E, сайт достигает лишь значения 4.15.

А теперь проставим ссылку со страницы A на страницу E и нажмем Calculate. Отметим, что суммарное значение снижается весьма достоверно. Однако, поскольку новая ссылка является свисающей, и будет удалена из расчетов, мы можем пренебречь новым суммарным значением и считать предшествующее 4.15 правдой. Таково влияние полезных с точки зрения функциональности свисающих ссылок. Они не влекут за собой потери суммарного ПэйджРанка.

Однако, кое-что, тем не менее, теряется, поэтому поставим ссылку со страницы E назад на страницу A и нажмем Calculate. Теперь мы имеем максимальное значение ПэйджРанка, которое возможно для 5 страниц. Ничего не потеряно.

Несмотря на то, что с точки зрения удобства функционала неплохо ставить ссылки на страницы внутри сайта без их возврата, это опасно с точки зрения падения ПэйджРанка. Именно поэтому всегда следите за тем, чтобы каждая страница внутри сайта ссылалась по меньшей мере на одну страницу в пределах того же самого сайта.


 
OdisseiДата: Воскресенье, 20.05.2007, 01:26 | Сообщение # 5
†OwneR†
Группа: ☭OwneR☭
Сообщений: 722
Репутация: 11
Статус: Offline
Входящие ссылки

Входящие ссылки (ссылки, ведущие на сайт извне) служат одним из путей увеличения суммарного ПэйджРанка сайта. Другой путь — это добавление страниц внутри сайта. Неважно, откуда пришли входящие ссылки. Гугл полагает, что веб-мастер не может контролировать, какие сторонние сайты ставят ссылки на его сайт, поэтому «наказания» за такие ссылки нет. Существуют и исключения из данного правила, однако они весьма редки и не являются предметом рассмотрения этой статьи.

ПэйджРанк ссылающейся на вас страницы важен, но не менее важно количество ссылок, ведущих со ссылающейся страницы. Так, если у вас есть только одна ссылка со страницы, имеющей PR 2, вы получите добавку в 0.15 + 0.85(2/1) = 1.85 для вашего сайта, в то время как ссылка со страницы, имеющей PR 8, имеющей 99 других ссылок, увеличит ПэйджРанк вашего сайта на 0.15 + 0.85(7/100) = 0.2095. Так что же, ссылка со страницы с PR 2 лучше — или нет? Взглянем сюда, чтобы понять возможную причину, почему это не так.

Коль скоро вашему сайту добавляется ПэйджРанк, расчеты запускаются снова, и ПэйджРанк каждой страницы изменяется. В зависимости от внутренней ссылочной структуры, ПэйджРанк некоторых страниц растет, некоторых — остается неизменным, но ни одна из страниц не теряет в ПэйджРанке.

Очень полезно иметь входящие ссылки на те страницы, с которыми вы прицельно работаете с целью увеличения их веса ПэйджРанка. А вот добавка ПэйджРанка любым другим страницам будет перераспределяться внутри сайта через систему внутренних ссылок. При этом важные страницы тоже будут испытывать повышение, но в гораздо меньшей степени, чем если бы ссылки вели на них непосредственно. Страница, на которую ведет входящая ссылка, получает наибольший эффект.

Достаточно легко представить себе свой сайт как небольшую самодостаточную сеть страниц. Когда мы подсчитываем значение ПэйджРанка, мы имеем дело с нашей небольшой сетью. Если мы проставляем ссылку на другой сайт, мы теряем какую-то часть ПэйджРанка нашей сети, а если мы получаем входящую ссылку, она добавляет некоторое значение к ПэйджРанку нашей сети. В роде бы так должна работать наша модель. Но не все так просто. Дело в том, что при расчете ПэйджРанка существует только одна сеть — и она содержит каждую страницу, которая зачтена Гуглом в его индексе. Каждая вычислительная итерация проводится для всей сети, а не для отдельных веб-сайтов.

Поскольку внутри этой сети существует огромное количество взаимных ссылок, и при этом каждая страница и каждая ссылка играют роль в процессе каждой итерации, невозможно рассчитать количественное влияние входящих ссылок на наш сайт с какой-либо достоверной точностью.


 
OdisseiДата: Воскресенье, 20.05.2007, 01:27 | Сообщение # 6
†OwneR†
Группа: ☭OwneR☭
Сообщений: 722
Репутация: 11
Статус: Offline
Итак, сколько дополнительного ПэйджРанка нам нужно, чтобы подвинуть ленточку на тулбаре?

Прежде всего, позвольте мне пояснить более детально, почему цифры, появляющиеся на тулбаре Гугла, не являются реальными значениями ПэйджРанка. В соответствии с основной формулой, и по данным выступлений основателей Гугла, миллиарды страниц интернета имеют средний вес ПэйджРанка порядка 1.0 на страницу. Таким образом, общий ПэйджРанк интернета эквивалентен количеству страниц на вебе, умноженному на 1, что в масштабах всего интернета дает огромное количество ПэйджРанка, распределяемого внутри всего интернета.

Шкала на тулбаре Гугла градуирована от 1 до 10. (Иногда там можно увидеть и 0, но эта цифра не является результатом вычислений ПэйджРанка). Гугл поступает таким образом, что делит полное реальное значение всего ПэйджРанка всего интернета на 10 частей. При этом каждая часть отображается значением, указанным на тулбаре. Таким образом, значения на тулбаре указывают лишь на то, в каком диапазоне находится ПэйджРанк доставленной браузером страницы, а не выводит точного значения ПэйджРанка самого по себе. Цифры на тулбаре — всего лишь относительные отметки.

Эквивалентны ли эти 10 отрезков или нет — все это предмет для дискуссий; Гугл на эту тему не распространяется. Однако, поскольку из практики известно, что, чем в более высоком диапазоне находится выводимый показатель, тем все более трудно добиться его дальнейшего повышения, многие люди (включая и меня самого) полагают, что градуировка производится по логарифмической шкале, или на очень похожем принципе, но уж никак не на основе простой линейной закономерности.

Давайте предположим, что используется логарифмическая закономерность, базирующаяся на десятичной шкале, и что требуется 10 правильно организованных с точки зрения ссылочных структур, страниц, чтобы поднять важную страницу сайта на одно деление шкалы тулбара. Тогда для следующей подвижки потребуется уже 100 новых страниц, 1,000 новых страниц, чтобы пройти следующее деление, 10, 000 — для еще одной подвижки, и так далее. Вот почему передвижения внизу шкалы (левый край) даются гораздо легче, чем в центре, и, тем более, на правом краю шкалы.

На самом деле, навряд ли основание логарифма составляет ровно 10. Некоторые исследователи считают, что это 5 или 6, а, возможно, даже и менее. Но даже и в этом случае, чем выше поднимаешься по шкале — тем более затрудненным становится процесс перемещения.

Примем во внимание, что, по мере того как количество страниц в интернете постоянно возрастает, суммарный ПэйджРанк также растет. А, коль скоро растет суммарный ПэйджРанк, расположение позиций градуировки шкалы должно меняться. При этом некоторые страницы опускаются на указателе тулбара по «непонятным» причинам. Если актуальное значение ПэйджРанка страницы было чуть-чуть выше какого-то деления шкалы, то добавление новых страниц в пространстве интернета должно вызывать незначительное перемещение маркера деления вверх; при этом положение страницы должно незначительно сползать вниз по шкале, оказываясь немного под соответствующим делением. Индекс Гугла постоянно растет, и они переоценивают значимость каждой из страниц с периодичностью, близкой к ежемесячной. Этот процесс известен как «Танец Гугла». Когда танец заканчивается, некоторые страницы падают относительно соответствующей отметки тулбара. Поэтому, «вливание» в массив мирового интернета новых страниц — зачастую это все что нужно, чтобы откатиться на позицию назад после очередного «танца».

Конечно, цифра, выводимая на тулбар — это хороший индикатор ПэйджРанка страницы, но все, о чем она свидетельствует, так это о том, что ПэйджРанк данной страницы находится в определенном диапазоне по отношению ко всему пространству шкалы. Так, PR 5 может означать, что страница не дотягивает до реального значения в 5, а также — что страница имеет больше 5, но пока не дотягивает до 6.


 
OdisseiДата: Воскресенье, 20.05.2007, 01:29 | Сообщение # 7
†OwneR†
Группа: ☭OwneR☭
Сообщений: 722
Репутация: 11
Статус: Offline
Подсказки

Доменные имена и имена файлов

С точки зрения робота, www.domain.com/, domain.com/, www.domain.com/index.html и domain.com/index.html — это разные URL-ы, и, следовательно, разные страницы. Люди посещают домашнюю страницу сайта, не делая различий между URL-ами, но для роботов все по-другому; и этот фактор влияет на результаты расчетов ПэйджРанка. Поэтому лучшим решением служит стандартизация обращения к URL-у, который вы используете для домашней страницы. Если же этого не сделать, то каждый URL будет обладать собственным ПэйджРанком вместо того чтобы укреплять ПэйджРанк одного-единственного URL-а.

Если вы задумаетесь над этим, как может робот знать имя файла страницы, которая выдается при подаче запроса в форме www.domain.com/? Да никак. Имя файла может быть index.html, index.htm, index.php, default.html, и так далее. Паук об этом не знает. Если вы внутри сайта проставляете ссылку на index.html, паук может сравнить две страницы, но и то это вряд ли будет произведено. Итак, получается два URL-а, и каждый из них получает свой ПэйджРанк от входящих ссылок. Стандартизация обращения к URL-ам домашней страницы позволяет быть уверенным, что не происходит распыления ПэйджРанка между основным URL-ом и URL-ами-«призраками».

Пример: Зайдите ко мне на UK Holidays and UK Holiday Accoommodation site (http://www.holidays.org.uk/) — хотя бы за такой длинный текст ссылки ;). Обратите внимание, что URL в адресной строке браузера содержит «www.». Если у вас инсталлирован тулбар Гугла, вы увидите, что PR этой страницы составляет 5. А теперь удалите «www.» из адреса и повторите запрос страницы. На этот раз отобразится PR 1, и это для одной и той же страницы. PR 1 — это достойный ПэйджРанк для спрятанной страницы, выводимой в составе фрейма.

Когда я только начинал написание этой статьи, URL-адрес, не содержащий «www.», имел PR 4 в связи с тем, что внутри сайта использовались различные версии синтаксиса ссылок. Это приводило к тому, что ПэйджРанк распределялся между двумя страницами, и, соответственно, между двумя сайтами. Это не самый лучший выход. С тех пор, я исправил внутренние ссылки, что привело к снижению PR не содержащей «www.» версии до 1 и нахождению большей доли ПэйджРанка в версии, содержащей «www.». Хотя, возможно и обратное решение, когда большая доля ПэйджРанка будет концентрироваться в версии, не содержащей «www.».

Представьте себе страницу, имеющую адрес www.domain.com/index.html. Индексная страница содержит ссылки на ряд относительных URL-ов, названных как products.html и details.html. Робот видит эти URL-ы как www.domain.com/products.html и www.domain.com/details.html. А теперь давайте добавим на другую страницу URL не в относительном, а в абсолютном формате, но опустим префикс «www.»: domain.com/anotherpage.html. Эта страница имеет ссылку назад на страницу index.html; таким образом, робот видит индексную страницу уже как domain.com/index.html. Несмотря на то, что это та же самая индексная страница, для паука — это совсем другая страница, поскольку она расположена на другом домене. Теперь смотрите, что получается. Каждый из относительных URL-ов на индексной странице также отличается, поскольку принадлежит к домену с именем domain.com/. В результате, ссылочная структура приводит к потере потенциального ПэйджРанка сайта из-за его распыления между страницами-«призраками».

Добавление новых страниц

При добавлении новых страниц возможны отрицательные последствия. Возьмем прекрасный благополучный сайт. Он имеет ряд входящих с других сайтов ссылок, а его страницы имеют определенные значения ПэйджРанка. Затем на сайт добавляется новая страница, имеющая ссылки на одну или более уже существующих страниц. Новая страница будет, безусловно, отнимать ПэйджРанк у уже существующих страниц сайта. В результате, хотя общий ПэйджРанк сайта возрастает, хотя бы одна или несколько ранее существовавших страниц испытают уменьшение ПэйджРанка в связи с тем, что новая страница возьмет от них часть значения ПэйджРанка. Таким образом, чем больше новых страниц мы добавляем на сайт, тем существеннее потери ПэйджРанка у страниц, уже существующих. В случае больших сайтов этот эффект малозаметен, но при небольшом количестве страниц потери могут быть существенными.

Иными словами, добавление новых страниц увеличивает суммарный ПэйджРанк сайта, но вызывает снижение индивидуального ПэйджРанка отдельных страниц. Решением проблемы служит постановка ссылок на новые страницы таким образом, чтобы не страдали важные страницы.

Дополнительно

Тулбар Гугла

Если в вашем браузере установлен тулбар Гугла, вы можете видеть ПэйджРанк каждой загружаемой в браузер страницы. Но ПэйджРанк будет выводиться далеко не каждый раз. Многие страницы не были проиндексированы Гуглом и, соответственно, не имеют вычисленного значения ПэйджРанка. А другие страницы на том же сайте — были проиндексированы и имеют значение ПэйджРанка. Что же происходит в этом случае? Значения ПэйджРанка для не проиндексированных страниц выводятся «на лету» — самым приблизительным образом, и только для вашего тулбара. В этой ситуации — цифра есть, а ПэйджРанка нет.

Об этом важно помнить, дабы избежать обмена ссылками со страницами, которые на самом деле не имеют никакого ПэйджРанка сами по себе. Перед тем, как обмениваться ссылками, зайдите непосредственно на Гугл, и убедитесь, что страница, с которой вы планируете осуществить обмен, действительно проиндексирована.

Поддиректории

Некоторые полагают, что Гугл присваивает ПэйджРанк странице в зависимости от того, на каком уровне поддиректории она находится — точнее, понижает значение на единицу в зависимости от глубины нахождения директории. Так, если уровень PR для корневой директории составляет 4, то для вложенной директории это будет около 3, для следующего уровня вложения — около 2, и так далее. Другие же (включая меня) не принимают эту точку зрения вообще. Хотя, поскольку некоторые роботы имеют привычку избегать глубоких вложенных поддиректорий, будет правильным не делать структуру директорий чересчур глубокой — вполне достаточно иметь один или два уровня глубины, считая от корневого уровня.

ODP и Yahoo!

Была такая мысль, что Гугл усиливает ПэйджРанк для сайтов, прописанных в Yahoo! и ODP (a.k.a. DMOZ), но на сегодня, похоже, что это не совсем так. Действительно, такой факт имеет место, но, похоже, по совсем иной причине.

Роботы Гугла обходят эти директории точно так же, как и любой другой сайт, причем сайты, содержащиеся в этих директориях, имеют неплохие значения ПэйджРанка, поскольку обладают хорошими входящими на них ссылками. В случае ODP, директория Гугла представляет собой копию директории ODP. Каждый раз, когда в директорию ODP добавляются новые сайты (или исчезают старые), то же самое происходит и с директорией Гугла при ее следующем обновлении. Вход в директорию Гугла очень хороший, ПэйджРанк увеличивается, количество входящих ссылок, соответственно, тоже. Кроме того, данные из ODP используются для поиска на бесчисленном количестве сайтов — а это ведет к увеличению количества входящих ссылок.

Размещение в ODP бесплатно, но, поскольку сайты, стоящие в очереди на размещение, отсматриваются вручную, то с момента постановки в очередь на размещение до момента реального размещения проходит много времени. Поэтому, чем быстрее сайт будет поставлен в очередь на размещение, тем лучше. Полезные советы по подаче сайтов на размещение в DMOZ смотрите в этой статье о DMOZ.

----------------------------------------------------------------------------------------------------------
Перевод Михаила ЗУЕВА
Оригинал статьи расположен на
www.webworkshop.net/pagerank.html
----------------------------------------------------------------------------------------------------------




Сообщение отредактировал Odissei - Воскресенье, 20.05.2007, 01:29
 
  • Страница 1 из 1
  • 1
Поиск: