互联网用户在上网时,往往有类似的网络行为:输入网址,浏览页面,然后顺着页面的链接不断打开新的网页。随机游走模型就是针对浏览网页的用户行为建立的抽象概念模型。之所以要建立这个抽象概念模型,是因为包括PageRank算法在内的很多链接分析算法都是建立在随机游走模型基础上的。
图给出了随机游走模型的示意图。在最初阶段,用户打开浏览器浏览第1 个网页,假设我们有一个虚拟时钟用来计时,此时可以设定时间为1,用户在看完网页后,对网页内某个链接指向的页面感兴趣,于是点击该链接,进入第2 个页面,此时虚拟时钟再次计时,时钟走向数字2,如果网页包含了k 个出链,则用户从当前页面跳转到任意一个链接所指向页面的概率是相等的。用户不断重复以上过程,在相互有链接指向的页面之间跳转。如果对于某个页面所包含 的所有链接,用户都没有兴趣继续浏览,则可能会在浏览器中输入另外一个网址,直接到达该网页,这个行为称为远程跳转(Teleporting)。假设互联 网中共有m 个页面,则用户远程跳转到任意一个页面的概率也是相等的,即为1/m。随机游走模型就是一个对直接跳转和远程跳转两种用户浏览行为进行抽象的概念模型。
PR值的本质是页面被点击的概率,即受众。总结起来就是:一个链接效果的大小取决于该链接被点击的多少。进一步思考,一个链接如何才能更多的被点击呢?
1.网站权重:一个网站权重越高,用户越多,该网站上的外链被点击的次数越多。这就是选择高权重网站发外链的原因之一。
2.页面链接:链接所在页面的链接越多越好、质量越高越好,包括站内链接和外链。
3.页面内容:链接所在的页面质量越高,排名越好,受众越多,链接被访问的概率越高。上面都是从增加页面访问量考虑的,一个链接被点击的次数除了页面的访问量,另外一个就是链接被点击的概率。如何提高一个链接点击的概率呢?
链接位置。页面上正文链接被点击的概率比博客留言,论坛回复的链接。
2.相关性在一个音乐论坛留下 有关陈奕迅的页面链接肯定比在卖鞋的论坛要好,因为前者的点击率更高。再比如 一个上海旅游的网站与上海论坛交换友链效果就比较好,因为两者受众高度重合。思考一下几个问题:mofollow链接有没有用?在同一个网站发很多的外链有没有用?
|