百度原创文章与转载检测算法
随着互联网的飞速发展,网络中存在大量重复的资源文件。例如,大多数用户会将其希望分享的资源文件上传至网络,对于热门的、或者受欢迎度较高的资源文件,会被许多用户上传至网络,这必然造成相同的资源文件被重复上传。,不同的也会网络推广网站推广转载、引用以及提供下载相同的资源文件,这进一步扩大了网络中重复资源文件的数量。
然后,搜索引擎通过“网络蜘蛛 (spider)”、“网络爬虫 (crawler)”或者“机器人(robot)”等网页抓取工具从网络中抓取网页时,对抓取到的网页不做区分,这些网页中可能包括指向相同的资源文件的网页。如果不对这些指向相同的资源文件的网页去重,搜索引擎在抓取这些网页后,需要大量的存储空间来存储这些网页,并且还需要分配更多的检测设备对存储的网页进行后期检测。
,如何提供一种基于内容特征信息对指向相同资源文件的多个链接进行去重
处理的方法,成为目前急需解决的问题之一。
所述第一链接集中第一链接的抓取时间 ;
所述第一链接集中第一链接的产生时间 ;
所述第一链接集中第一链接对应的网页的流量 ;
所述第一链接集中第一链接对应的网页的权威度。
具体地,第一链接集中第一链接的抓取时间指搜索引擎抓取到第一链接并将其放入搜索引擎索引信息库中的时间,该抓取时间越早,表明相应的第一链接被搜索引擎发现的时间越早,这在一定程度上表征了该第一链接所指向的资源文件的质量也较高。
第一链接集中第一链接的产生时间指该第一链接及其所指向的资源文件在网络上的发布时间,该产生时间越早,表明相应的第一链接的存续时间越久,这在一定程度上表征了该第一链接所指向的资源文件的质量也较高。
第一链接集中第一链接对应的网页的流量指与该第一链接相对应的网页的访问量,该流量可以是日级、周级,甚至是月级的,该流量越大,表明该第一链接对应的网页,也即该第一链接所指向的资源文件所在的网页的用户访问量越大,说明该资源文件的用户关注度和用户欢迎度较高,这在较高程度上表征了该第一链接所指向的资源文件的质量也较高。
第一链接集中第一链接对应的网页的权威度指搜索引擎或者第三方设备对与该第一链接相对应的网页的质量及重要程度的评价,该权威度越高,表明该第一链接对应的网页,也即该第一链接所指向的资源文件所在的网页的较高且较为重要,这在较高程度上表征了该第一链接所指向的资源文件的质量也较高。
技术人员应能理解上述对第一链接集去重处理的参考因素仅为举例,其他现有的或今后可能出现的对第一链接集去重处理的参考因素
狗小云博客首发 本算法来源百度内部材料,http://blog.sina../70mazlc
网络推广网站
- 产品推广介绍怎么写 产品推广介绍200字
- 百度推广代理公司 百度推广代理公司怎么赚钱
- app拉新推广平台有哪些 app拉新推广平台渠道
- 互联网推广项目 互联网推广项目论坛
- 抖音怎么推广引流 怎么把抖音流量做上去
- 广告推广免费平台 免费广告推送
- 什么是网店推广 网店推广是什么
- 十大免费网站推广 成免费的crmbsm
- app推广链接 推广链接制作软件
- 114黄页网推广 达州114黄页网是什么
- 40个免费网站推广平台 免费网站推广产品
- 18种最有效推广的方式 18种最有效推广的方式抖音
- 抖音广告怎么投放 抖音广告怎么投放电话
- 广告推广 精准引流 推广引流广告词
- 百度关键词推广怎么做 百度怎么发布自己的广告
- 100个免费推广网站 有哪些100个免费推广网站