当前位置:首页 > 新闻资讯 常见问题

武汉百度SEO:关于搜索引擎原理之网页去重原理

发表日期:2020-10-24 14:30:44作者来源:浏览次数:

在一般的搜索引擎架构中,网页去重一般在spider抓取部分就存在了,“去重”步骤在整个搜索引擎架构中实施的越早,越可以节约后续处理系统的资源使用。搜索引擎一般会对已经抓取过的重复页面进行归类处理,比如,判断某个站点是否包含大量的重复页面,或者该站点是否完全采集其他站点的内容等,以决定以后对该站点的抓取情况或是否直接屏蔽抓取。
去重的工作一般会在分词之后和索引之前进行,搜索引擎会在页面已经分出的关键词中,提取部分具有代表性的关键词,然后计算这些关键词的“指纹”。每一个网页都会有个这样的特征指纹,当新抓取的网页的王建辞职文和已索引网页的关键词指纹有重合时,那么该网页就可能会被搜索引擎视为重复内容而放弃索引。
在互联网如此发达的今天,同一资料会在多个网站发布,同一新闻会被大部分媒体网站报道,再加上小站长和 在面对网站内容时,不应该再以伪原创的角度去建设,而需要以对用户游泳的角度去建设,虽然后者的内容不一定全是原创,一般如果网站权重没有大问题,都会得到健康的发展。
另外,不仅仅是搜索引擎需要“网页去重”,自己做网站也需要对站内页面进行去重。比如分类信息、B2B平台等UGC类的网站,如果不加以限制,用户所发布的信息必然会有大量的重复,这样不仅在SEO方面表现不好,站内用户体验也会降很多。
又如SEOer在设计流量产品大批量产生页面时,也需要做一个重复过滤,否则就会大大降低产品质量。seoer所设计的流量产品常见的一般以“聚合”为基础的索引页、专题页或目录页,“聚合”就必须有核心词,不加以过滤,海量核心词所扩展出来的页面就可能会有大量重复,从而导致该产品效果不佳,甚至会因此被搜索引擎降权。
 
 
 
实际工作中的搜索引擎,不仅仅使用分词步骤所分出的有意义的关键词,还会使用连续切割的方式提取关键词,并进行指纹计算。连续切割就是以单个字向后移动的方式进行切词,比如,“百度开始打击买卖链接”会被切成“百度开”“度开始”“开始打”“始打击”“打击买”“击买卖”“买链接”“卖链接”。然后从这些词中提取部分关键词进行指纹计算,参与是否重复内容的对比,具体的可以参考搜索引擎原理之中文分词技术这篇文章,这只是搜索引擎识别重复网页的基本算法,还有很多其他对付重复网页的算法。
 
如没特殊注明,文章均为江浙沪网络推广,转载请注明来自https://www.seokaowo.com/html/news/
相关推荐新闻

为什么我们不大规模推广汉服来弘扬传统文

魔都国风推广:为什么我们不大规模推广汉服来弘扬传统文化 汉服是从黄帝尧舜垂衣裳而天下治发展而来,...

日期:2020-07-07 浏览次数:2436

汉服推广者,他们追求自己的梦想,让传统文化在现代开花

魔都国风推广:汉服推广者,他们追求自己的梦想,让传统文化在现代开花 我们欣喜于世界的进步,在钢筋混...

日期:2020-07-07 浏览次数:2327

汉服推广瓶颈原因与突破方式

上海网络推广:汉服推广瓶颈原因与突破方式 汉服复兴 的口号 喊了十几年 ,然而 目前 只能 算...

日期:2020-07-06 浏览次数:1724

汉服推广难点和汉服大全介绍

上海网络推广:汉服推广难点和汉服大全介绍 中华文化博大精深,源远流长,我们的物质文化遗产丰富多样...

日期:2020-07-06 浏览次数:1686

汉服营销策划方案(八)

日期:2020-07-06 浏览次数:1637

汉服营销策划方案(三)

日期:2020-07-06 浏览次数:1594

汉服营销策划方案(六)

日期:2020-07-06 浏览次数:1587

汉服营销策划方案(一)

日期:2020-07-06 浏览次数:1503

汉服营销策划方案(九)

日期:2020-07-06 浏览次数:1480

汉服营销策划方案(七)

日期:2020-07-06 浏览次数:1471

相关标签
网站报价网站报价方案
网站建设解决方案
抖音推广解决方案 响应式网站建设方案 手机微信网站解决方案 旅游网站解决方案
志强网络拥有资深设计师团队和自主系统开发技术团队,为客户专业定制企业品牌网站、响应式网站、商城系统、手机微信网站、外贸网站、营销型网站、旅游网站、微信小程序、APP等。欢迎广大客户咨询!