Взвешенный индекс цитирования (вИЦ)
Согласно теории поиска[1], пользователи информационно-поисковых систем определяют ценность документа путем так называемых информационных ключей, таких как: заголовок статьи, автор, название сборника, индекс цитируемости, дата публикации работы, и далее переходят к более значимым документам. Чем больше ключей они учтут при поиске, тем лучше они могут вычислить ценность того или иного документа. Информационные ключи, основанные на лексическом сходстве документов запросам, весьма ограничены. В качестве параметра значимости статьи обычно рассматривается её индекс цитируемости. Однако, он также имеет ряд ограничений. Этот фактор не отражает структуру ссылок в каждой дисциплине (тематике), а также слабозначимые работы и труды с большой значимостью могут иметь одинаковый индекс цитируемости.
Опираясь на изложенную модель, люди, занимающиеся ранжированием результатов поиска в электронных библиотеках, предложили[2] не только подсчитывать количество цитат, но также ввести понятие веса ссылки, обосновывая это тем, что качество статьи определяется не только количеством, но и качеством ссылающихся источников. То есть, значимость источника ссылки является таким же важным информационным ключем для пользователей, определяющих ценность документа.
Раннее, для определения значимости документа использовали импакт-фактор. Однако этот фактор имеет некоторые недостатки. Главные из них в том, что импакт-фактор является не нормализованной величиной, а также рассматривает ссылки за короткий период времени (2-3 года) и не учитывает цитирования с конференций, которые часто играют важную роль в исследованиях, благодаря их популярности.
Поэтому и был введен термин фактор популярности (англ. Popularity Factor), который для определенного сборника вычислялся по следующей формуле:
где, PF(v,t) — фактор популярности сборника публикаций в рассматриваемый год t;
P — множество сборников, которые ссылаются на сборник v в этом году;
nv — количество статей, опубликованных в сборнике v в этом году;
N — общее число статей, опубликованных в этом году (при этом, nv/N — вероятность того, что пользователь читает сборник v);
w(i) — частота цитируемости сборником i сборника v;
N(i) — общее число ссылок в i-ом сборнике.
При этом PF(v,t) является нормализованной величиной, где сумма квадратов PF для всех сборников равна единице.
Все вышесказанное касалось электорнных библиотек, однако, описанная модель также применяется поисковыми системами для интернет-документов, используя популярность как один из факторов для ранжирования документов. В разных поисковиках этот фактор называется по разному: PageRank в Google, вИЦ в Яндексе, ИЦ в Апорте (из-за разных названий и возникала путаница среди вебмастеров).
Как описывал в статье о работе ПС Яндекс Илья Сегалович,
Введение ссылочного поиска и статической ссылочной популярности (мы называем этот фактор ВИЦ — взвешенный индекс цитирования — аналог известного PageRank) помогает поисковым системам справляться с примитивным текстовым спамом, который полностью разрушает традицонные статистические алгоритмы информационного поиска, полученные в свое время для контролируемых коллекций.
А Александр Садовский по этому поводу дал следующий комментарий:
Аналогичную возможность для русскоязычного интернета предоставляет Yandex.Bar. Яндекс.Бар показывает “взвешенный индекс цитирования” гораздо точнее, чем это делает Google — данные отображаются с точностью до сотых. В то же время, показываемое число касается только главной страницы сайта, и не зависит от веса его конкретной страницы, которая в данный момент загружена в окне браузера.
Еще один источник информации про вес PageRank для русскоязычных сайтов — каталог поисковой системы Апорт. Если сайт присутствует в каталоге, то рядом с его описанием указывается ИЦ главной страницы сайта.
Отсюда можно сделать вывод, что вИЦ в яндексе это тот же PageRank в Google с точностью до деталей реализации. Также обратите внимание, что формула (1) совпадает с формулой вычисления PageRank, где w(i)=1 (количество учитываемых одинаковых ссылок) и не учитывается переход пользователя не по ссылке (параметр 1-d отсутствует).
Взвешенный индекс цитирования, как и другие ссылочные факторы ранжирования, расчитывается из ссылочного графа. Узнать вИЦ для своих страниц вы можете приблизительно, проверив их PageRank любым чекером, однако, следует учесть, что в индексе Яндекса присутствуют только русскоязычные документы, а из зарубежных лишь некоторые популярные, таким образом, урезая ссылочный граф по сравнению с Google.
Документы по теме:
21 ответа (оставить свой)
В Школе такому не учили xD
Спасибо большое ! Как раз хотела уточнить поведение Яндекс.бара в части цитируемости и натолкнулась на Вашу статью.
формула эта очень и очень не точная, т.к. не учитуються многие факторы, а настоящие формулы яндекс и гугл, хранят под семюь замками!!
И если бы эту формулу знали,,, то у каждого второго был бы ТИц 99999
Думаю по этой формуле я мало что накручу
Что бы гугл и яндекс выдал свои тайны, да никогда!
Откуда формулы? Поисковики не дают формул расчёта индексов.
chess, все ссылки на источники приведены в статье.
UIR-1995-07…. Это документ 1995 года? За 15 лет много что изменилось.
почти как тиц, требует затрт времени и умелых рук
мне вот интересен источник этой формулы..
с ПР проще (
А в цифрах и на примере можете показать как это все считается?
Формула ещё работает или нет?
Я лично не верю что какой либо индекс можно достаточно точно рассчитать. В него же постоянно могут вноситься изменения. Как говорится хозяин (рейтинга) барин.
Тиц вообще не предсказуем. Если б он обновлялся более часто, то можно было бы определить тенденцию его роста. Рост Тица зависит от многих факторов, в том числе от тематики ресурса.
Privet Sergey. Statiya super, formula mojet bıt ne pravılno no daet bolshoe ınformatsıya.
Тиц зависит не только от ссылок, также важна и тематика. В определенных тематиках его показатели проще поднять.
Тиц зависит не только от ссылок, также важна и тематика. В определенных тематиках его показатели проще поднять...
Так сейчас ведь ТИЦ не важен уже?
Он важен, только наличие большого тИЦ не гарантирует хорошие позиции в поиске!