百度是如何判断重复的
seo优化 2018-10-12 16:39www.168986.cn长沙seo优化
从事优化的都会了解在(2011)之前一般是通过比较两个页面的内容和节点,来确认两个页面的相似度。这种方法能够计算得比较准确,可时间复杂度太高,计算很费时间。通过对一个页面中的某些重要信息进行签名,然后比较两个页面的签名,来计算相似度,这种方式比较简单 高效,计算速度比较快,比较适合互联网这种海量信息的应用场景!
在百度专利《一种重复的判断系统及其判断方法 》(申请号:201110031636.9 )中使用了新的方法对库中的网页进行重复检测.
是对待检测的网页进行正文提取,正文提取的方法就是对网页进行分块,然后获取正文块,然后提取正文块中的文章.
提取到文章内容后,对正文进行分句,然后对每一个句子进行转换和过滤(特殊字符),对较长的一个或几个句子进行Hash签名,以获得网页正文句子签名.
接着把正文句子签名相同的文章分为一个类,我们称之为网页集,对该网页集下的文章再进行下一步的判断,这里还得再计算一些签名
1.网页正文的simhash签名
2.真实标题的hash签名
3.标签标题的hash签名
4.网页摘要的hash签名
5.网页内容的hash签名
6.位置签名的hash签名
7.评论信息的hash签名
8.资源签名(资源签名是通 过对网页中的图片资源、声音资源、资源或下载链接资源的 url 进行 hash 签名运算获得)
9.URL文件名的hash签名(url文件名签名是通过对网页的 url 中的文件名进行 hash 签名运算获得)
这些计算完了,就可以进行下一步的判断了,真重复的网页举例:
1、两个网页的真实标题签名相同。
2、两个网页的网页内容签名相同。
3、两个网页的网页正文签名(simhash)的不同位数小于 6。
4、两个网页的网页位置签名相同,并且 url 文件名签名相同。
5、评论块签名、资源签名、标签标题签名、摘要签名、url 文件名签名中有三个签名相同。
通过两两页面比较,可以得到真重复 url 的集合。,如果这个真重复 url 集合中的网页的数量 / 整个网页集中网页的数量> 30%,则认为整个网页集都是真重复, 否则就是假重复。
上一篇:网站关键词的竞争大应该如何去分析
下一篇:SEO掌握要九大点外内部优化要素
seo排名培训
- 金溪网站优化公司:提升企业在线曝光的最佳选
- 东安百度快照排名:提升你网站曝光度的关键策
- 四川SEO网站推广怎样付费比较合理
- 福建百度seo排名有哪些渠道可以进行合作
- 贵州网站SEO怎么做网站推广
- 辽宁seo关键词优化怎样跟客户谈判容易签下合同
- 龙州SEO网站推广的全面指南
- 黑龙江百度seo排名怎样提升在搜索引擎中的排名
- 龙州网站SEO:提升网站曝光率的关键策略
- 甘肃SEO价格合理性的看法
- 北海百度网站优化:提升您网站的知名度和流量
- 四川SEO推广怎么做才能放大客户需求
- 光山百度网站优化:提升您网站的可见性与访问
- 广东百度快照排名怎么做才能放大客户需求
- 平安哪有关键词排名优化的最佳实践
- 霸州SEO主要做什么工作