PageRank是Google专有的算法,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。它由Larry Page 和 Sergey Brin在20世纪90年代后期发明。PageRank实现了将链接价值概念作为排名因素。
主要思想: 常言道,看一个人怎样,看他有什么朋友就知道了。也就是说,一个人有着越多牛X朋友的人,他是牛X的概率就越大。将这个知识迁移到网页上就是“被越多优质的网页所指的网页,它是优质的概率就越大”。
一个网页的Pagerank计算如下,其中R(j)是第j个指向它的网页的Pagerank,N(j)是第j个指向它网页所指向的全部网页数,C是一个系数。
计算网页的Pagerank时,实际是通过“幂法”计算矩阵的按模为最大的特征值和相应的特征向量,因此网页的Pagerank和计算时设定的初始值无关,但此时应加入逃脱因子E(i)来跳出网页之间的链接的死循环来避免特征值和特征向量的不收敛。
优点: 1)是一个与查询无关的静态算法,所有网页的PageRank值通过离线计算获得;有效减少在线查询时的计算量,极大降低了查询响应时间。
缺点: 1)人们的查询具有主题特征,PageRank忽略了主题相关性,导致结果的相关性和主题性降低
2)旧的页面等级会比新页面高。因为即使是非常好的新页面也不会有很多上游链接,除非它是某个站点的子站点。
参考文献: