上海SEO

不拘为浪,高处为峰 - 浪峰子博客,上海SEO服务中心
专业SEO分析,SEO策划,只为客户打造最合适的SEO策略、网站优化方案

上一篇: 假如每天都有$86,400.00打进你的账户... 下一篇:狗日的腾讯

如何计算两个页面的重复度?网页重复度算法怎么样?上海seo粗略的跟大家分享一下。

具体过程:读取网页的整体内容,在内容的选取上要去除掉网页中的“噪音”内容,主要是导航条、广告内容、网页底部版权信息等等无关主题的哪些部分,利用提取出我们想要的<title>与<p>里的内容。

Title、<h1>、<h2>以及p中的<h1>、<h2>、<b>、<strong>、<a>等内容属于页面权重高的部分。假设Pi表示第i个页面,对权重高的内容选用正向最大匹配分词算法,将权重最高的N个关键词构成一个集合Ki={k1,k2…kn},用des(Pi)表示摘要信息,前n个关键词使用统一的规则拼成的字符串用Con(Ki)表示,再对这n个关键词根据字母序排序后形成的字符串用 Con(Sort(Ki))表示,另外,用MD5(X)来表示字符串X的MD5散列值。

MD5(des(Pi))= MD5(des(Pj))就说明摘要信息完全一样,i和j两个页面就是相似页面。

MD5(Con(Ki) )= MD5(Con(Kj)) 说明两个页面前n个关键词一样,就判为相似页面。

MD5(Con(Sort(Ki)))= MD5( Con(Sort(Kj)) ) 当两个网页的权值最高的前N个关键词集合相同时就认为二者是互为转载的网页。

防止重复信息页面产生的一些想法

一、修改更新功能

一般发布重复信息基本上都是想着自己的信息能够靠前,如果能够让用户在修改自己发布的信息后让更新时间也随之修改为最新的时间,那么用户的信息也就排到了最前面,这样就可以满足了用户的这种心理,避免的制造重复页面,当然为了避免有些用户盲目的一直更新自己的信息页面,所以不妨做个更新次数限制,一天只能更新N次,超过了的话,那就不能更新,同时还可以开出出售更新次数这个服务,让更多的用户参与进消费队伍当中,不过得控制好价格,避免对广告位造成影响。

二、改变排序规则

还是从信息发布者的目的来看,很明确,就是要让自己排在前面、排在首页,在网站现有的规则下,他只有通过重新发布信息来获得好的排名。因此,网站可以更改排序规则,规定信息按照用户好评度排序,或按照浏览量排序,或者在首页只调用推荐的信息,而不是最新信息,那么新发布的信息,是很难马上排到前边的,这样自然会打击很多信息发布者的积极性,因为不能看到效果,他们也就不会使劲的发新信息了,也就减少了重复页面的现象。同时,信息发布者为了能够获得好的排名,反而会去推广自己的链接,让别人来顶或者浏览。对网站的推广也不失为一个好点子。

 

 

《上海seo:网页重复度算法,减少重复信息页面的发布》由上海seo发表,转载请标注www.cctv002.com。

点击这里获取该日志的TrackBack引用地址

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

关于本文

您正在阅读的是:上海seo:网页重复度算法,减少重复信息页面的发布
浪峰子 发表于:2010-9-5 21:17:28
分类:上海SEO优化
关键词:网页重复度  
订阅上海SEO

什么是RSS订阅?查看解释
订阅到您的在线阅读器

抓虾 google reader my yahoo bloglines 鲜果 哪吒

博客作者

浪峰子

最近发表

最新评论及回复

最近留言

控制面板

搜索相关文章

网站分类

文章归档

图标汇集

Copyright 上海SEO|上海网站优化|上海SEO优化. All Rights Reserved.

Powered By Z-Blog 1.8 Walle Build 100427 Code detection by Codefense Template Designed By houbenbo