自动秒收录

搜索引擎核心技术详解8—网页反作弊


文章编号:1986 / 更新时间:2023-04-13 / 浏览:

作弊与反作弊相生相克,只要作弊存在经济利益,两者斗争一定会持续。

常见的作弊方法包括:内容作弊、链接作弊、隐藏作弊和Web2。0作弊。

通用反作弊手段大致划分为以下3种类型:信任传播模型、不信任传播模型和异常发现模型。

纯粹用技术手段目前无法彻底解决作弊问题,必须将人工手段和技术手段相互结合,才能取得较好的反作弊效果。

搜索引擎核心技术详解8—网页反作弊

网页反作弊是目前所有商业搜索引擎需要解决的重要难点,出于商业利益驱使,很多网站站长会针对搜索引擎排名进行分析,并采取一些手段来提高网站排名,这种行为本身无可厚非,很多优化行为是符合搜索引擎排序规则的,但是也存在一些恶意的优化行为,通过特殊手段将网页的搜索排名提高到与其网页质量不相称的位置,这样会严重影响搜索引擎用户的搜索体验。而搜索引擎为了保证排名的公正性,也需要对作弊行为进行识别和处罚。所谓“道高一尺,魔高一丈”,只要这种经济利益存在,作弊与反作弊会一直作为搜索引擎领域的斗争而存在下去。

对于作弊者关心的目标关键词,大量重复设置在页面内容中。因为词频是搜索引擎相似度计算中必然会考虑的因子,关键词重复本质上是通过提高目标关键词的词频来影响搜索引擎内容相似性排名的。

为了能够尽可能多地吸引搜索流量,作弊者在页面内容中增加很多和页面主题无关的关键词,这本质上也是一种词频作弊,即将原先为0的单词词频增加到非0词频,以此吸引更多搜索引擎流量。

比如有的作弊者在网页的末端以不可见的方式加入一堆单词词表,也有作弊者在正文内容插入某些热门查询词,甚至有些页面内容是靠机器完全随机生成或者利用其他网页的页面内容片段随机拼凑而成的。

网页标题作为描述网页内容的综述性信息,对于判断一个网页所讲述的主题是非常重要的启发因素,所以搜索引擎:在计算相似性得分时,往往会增加标题词汇的得分权重。作弊者利用这一点,将与网页主题无关的目标词重复放置在标题位置来获得好的排名。

网页元信息,比如网页内容描述区(MetaDescription)和网页内容关键词区(MetaKeyword)是供制作网页的人对网页主题信息进行简短描述的,同以上情况类似,作弊者往往也会通过在其中插入作弊关键词来影响网页排名。

通过以上几种常见作弊手段的描述,我们可以看出,作弊者的作弊意图主要有以下几类

1、增加目标作弊词词频来影响排名。

2、增加主题无关内容或者热门查询吸引流量

3、关键位置插入目标作弊词影响排名。

内容农场运作模式:内容农场运营者廉价雇佣大量自由职业者,支持他们付费写作,但是写作内容普遍质量低下,很多文章是通过复制稍加修改来完成的,但是他们会研究搜索引擎的热门搜索词等,并有机地将这些词汇添加到写作内容中。这样,普通搜索引擎用户在搜索时,会被吸引进入内容农场网站,通过大量低质量内容吸引流量,内容农场可以赚取广告费用。

链接作弊,是网站拥有者考虑到搜索引擎排名中利用了链接分析技术,所以通过操纵页面之间的链接关系,或者操纵页面之间的链接锚文字,以此来增加链接排序因子的得分,并影响搜索结果排名的作弊方法。

为了提高网页的搜索引擎链接排名,链接农场构建了大量互相紧密链接的网页集合,期望能够利用搜索引擎链接算法的机制,通过大量相互的链接来提高网页排名。链接农场内的页面链接密度极高,任意两个页面都可能存在互相指向的链接。

锚文字是指向某个网页的链接描述文字,这些描述信息往往体现了被指向网页的内容主题,所以搜索引擎往往会在排序算法中利用这一点。作弊者通过精心设置锚文字内容来诱导搜索引擎给予目标网页较高排名,一般作弊者设置的锚文字和目标网页内容没有什么关系。

几年前曾经有个著名例子,采用Google轰炸来操控搜索结果排名。当时如果用Google搜索“miserablefailure”,会发现排在第2位的搜索结果是美国时任总统小布什的白宫页面,这就是通过构建很多其他网页,在页面中包含链接指向目标页面,其链接锚文字包含“miserablefailure”关键词所达到的效果。通过这种方式就导致了人们看到的搜索结果。

作弊者通过和其他网站交换链接,相互指向对方的网页页面,以此来增加网页排名很多作弊者过分地使用此手段,但是并不意味着使用这个手段的都是作弊网站,交换友情链接的做法也是正常网站的常规措施。

有些作弊者会通过购买链接的方法,即花钱让一些排名较高的网站的链接指向自己的网页,以此来提高网站排名。

有些作弊者会购买刚刚过期的域名,因为有些过期域名本身的PageRank排名是很高的,通过购买域名可以获得高价值的外链。

“门页”本身不包含正文内容,而是由大量链接构成的,而这些链接往往会指向同一网站内的页面,作弊者通过制造大量的“门页”来提升网站排名。

页面隐藏作弊通过一些手段瞒骗搜索引擎爬虫,使得搜索引擎抓取的页面内容和用户点击查看到的页面内容不同,以这种方式来影响搜索引擎的搜索结果。

网页拥有者在服务器端记载搜索引擎爬虫的IP地址列表,如果发现是搜索引擎在请求页面,则会推送给爬虫一个伪造的网页内容,而如果是其他IP地址,则会推送另外的网页内容,这个页面往往是有商业目的的营销页面。

客户端和服务器在获取网页页面的时候遵循HTTP协议,协议中有一项叫做用户代理项(UserAgent)。搜索引擎爬虫往往会在这一项有明显的特征(比如Google爬虫此项可能是:Googlebot/2.1),服务器如果判断是搜索引擎爬虫则会推送与用户看到的不同的页面内容。

作弊者使搜索引擎索引某个页面内容,但是如果是用户访问则将页面重定向到一个新的页面。

随着Web2.0大潮的兴起,以用户为中心的信息产生和消费模式日益流行,这些产品和应用往往以用户产生内容、内容分享与协作、社会化网络等作为基本特征,比如博客、图片分享网站、Wiki、SNS网站及微博等。针对大量的Web2.0网站,也出现了相应的Web2.0作弊方法。

作弊博客是作弊者申请博客空间,而写作的博客内容用于诱导搜索引擎或者博客读者转到作弊者希望提升排名或者营销的网页。因为市场上存在大量的博客空间提供商,可以免费开博客,所以这种作弊成本很低,这也是此作弊方式比较流行的一个原因。

随着Facebook等SNS平台的日益流行,在SNS平台上作弊也逐渐发展起来。一种典型的SNS作弊手段是用户个人描述信息(Profile)作弊。作弊者建立一个虚假的个人描述,在其描述部分利用色情等信息吸引他人,并诱导其他用户点击其推广链接或者是向一些用户群组群发广告信息。

微博是个人信息发布平台,以信息发布的及时性吸引了大量的用户。同样地,作弊者也会利用这个平台来作弊。一种典型的作弊方式是:作弊者大量关注他人微博,很多人出于礼貌也会将其作为关注者(互粉行为),在吸引到-一定量的关注者后,作弊者会发布广告信息,这些广告信息就会出现在其关注者的阅读列表中,以此达到营销的目的。

另外一种典型的作弊方式是利用微博搜索平台,作弊者密切关注:热门关键词,之后大量发布包含热门关键词的微博,里面包含一些推广信息,因为很多微博平台默认是按照时间发布先后来对搜索结果进行排序的,所以往往会在热门搜索词的搜索结果前列发现包含大量的作弊微博。

从基本的思路角度看,可以将反作弊手段大致划分为以下3种:信任传播模型、不信任传播模型和异常发现模型。其中前两种技术模型可以进一步抽象归纳为“链接分析”一章提到的子集传播模型。

所谓信任传播模型,基本思路如下:在海量的网页数据中,通过一定的技术手段或者人工半人工手段,从中筛选出部分完全值得信任的页面,也就是肯定不会作弊的页面(可以理解为白名单),算法以这些白名单内的页面作为出发点,赋予白名单内的页面节点较高的信任度分值,其他页面是否作弊,要根据其和白名单内节点的链接关系来确定。白名单内节点通过链接关系将信任度分值向外扩散传播,如果某个节点最后得到的信任度分值高于一定阀值,则认为没有问题,而低于这一阈值的网页则会被认为是作弊网页。

很多算法在整体流程和算法框架上遵循如上描述,其区别点往往体现在以下两方面。

a、如何获得最初的信任页面子集合,不同的方法手段可能有差异。

b、信任度是如何传播的,不同的方法可能有细微差异。

从大的技术框架上来讲,其和信任传播模型是相似的,最大的区别在于:初始的页面子集合不是值得信任的页面节点,而是确认存在作弊行为的页面集合,即不值得信任的页面集合(可以理解为黑名单)。赋予黑名单内页面节点不信任分值,通过链接关系将这种不信任关系传播出去,如果最后页面节点的不信任分值大于设定的阀值,则会被认为是作弊网页。

异常发现模型也是一个高度抽象化的算法框架模型,其基本假设认为:作弊网页必然存在有异于正常网页的特征,这种特征有可能是内容方面的,也有可能是链接关系方面的。而制定具体算法的流程往往是先找到一些作弊的网页集合,分析出其异常特征有哪些,然后利用这些异常特征来识别作弊网页。

具体来说,这个框架模型又可细分为两种子模型,这两种子模型在如何判断异常方面有不同的考虑角度。一种考虑角度比较直观,即直接从作弊网页包含的独特特征来构建算法;另外一种角度则认为不正常的网页即为作弊网页,也就是说,是通过统计等手段分析正常的网页应该具备哪些特征,如果网页不具备这些正常网页的特征,则被认为是作弊网页。

尽管反作弊算法五花八门,但是不论采取哪种具体算法,其实都包含了一些基本假设,经常被反作弊算法使用的基本假设有:

a尽管作弊网页喜欢将链接指向高质量网页,但是很少有高质量网页将链接指向作弊网站。

b、作弊网页之间倾向于互相指向。

很多算法的基本思路都是从这些基本假设出发来构造的。

所谓通用链接反作弊方法,指的是这种反作弊方法不需要针对某种具体的作弊方式来做特征分析,并根据分析结果去构建有针对性的算法。不论采取哪种链接作弊方法,通用反作弊方法都是对其有效的。

TrustRank算法属于信任传播模型,基本遵循信任传播模型的流程,即算法流程由如下两个步骤组成。

TrustRank算法需要靠人工审核来判断某个网页是否应该被放入信任网页集合,考虑到人工审核工作量过大,所以提出了两种初选信任网页集合的策略,在初选集合基础上再由人工审核。

初选策略1:高PageRank分值网页,即认为高PageRank得分的网页是可信赖的,所以可以对网页计算PageRank值后,提取少量高分值网页作为初选页面集合。

初选策略2:逆PageRank(InversePageRank),在PageRank计算过程中,是根据网页入链传入的权值计算的,逆PageRank与此相反,根据网页的出链传出的权值计算,即先将网页之间的链接指向关系反转,然后计算PageRank,选取得分较高的一部分页面子集作为初选页面。

在这个步骤,TrustRank算法的信任传播方式基于以下两个假设。

假设1:距离可信网页越近越值得信任,这里的距离指的是通过多少步链接中转可以通达。

假设2:一个高质量网页包含的出链越少,那么被指向的网页是高质量网页的可能性越大。反过来,如果出链越多,则被指向网页是高质量网页的可能性越小。

基于以上两个假设,在信任传播阶段,TrustRank算法引入了信任衰减因子(TrustDumpling)和信任分值均分(TrustSplitting)策略。

所谓信任衰减,即距离可信网页越远的网页,通过传播得到的信任分值越少。

所谓信任分值均分策略,即将网页获得的信任分值按照出链个数平均分配,如果一个网页有K个出链,则每个出链分配得到1/K的信任分值,并将这个分值传递给出链指向的页面。

通过结合以上两个传播策略可以在页面节点图之间传播信任分值,在最后的计算结果中,低于一定信任度的页面会被认为是作弊网页。

BadRank据传是Google采用的反链接作弊算法。它是一种典型的不信任传播模型,即首先构建作弊网页集合,之后利用链接关系来将这种不信任分值传递到其他网页。

BadRank包含的基本假设是:如果一个网页将其链接指向作弊页面,则这个网页也很可能是作弊网页;而如果一个网页被作弊网页指向,则不能说明这个网页是有问题的,因为作弊网页也经常将其链接指向一些知名网站。

所以BadRank的基本思路是:找到那些有链接关系指向已知作弊网页的页面,这些页面很可能也是作弊网页。BadRank首先收集一批已经确认的作弊网页形成作弊网页集合(黑名单),黑名单内网页赋予较高的不被信任分值,而不被信任分值是通过网页的链接关系来进行传播的,其计算过程与PageRank基本相同,与PageRank不同的是,PageRank是根据网页的出链来进行权值传播,而BadRank是按照入链来进行权值传播,所以可以将BadRank理解为首先将网页之间的链接指向关系反转,假设页面A有链接指向页面B,则将链接反转为由B指向A,之后可以按照PageRank的计算方法进行计算。

BadRank的计算思路是非常有代表性的,后续提出的ParentRank及Anti-TrustPageRank在整体思路上与BadRank是一致的,基本上都是不信任传播模型的具体实现实例。

BadRank的计算思路很明显和TrustRank是互补的,一个方法是从黑名单出发传播不信任关系,另外一个是从白名单出发传播信任关系,所以两者有天然的互补性。

SpamRank是一种典型的符合异常发现模型的反作弊方法,也就是说,首先定义正常的网页或者链接关系应该满足哪些特性,如果某些网页不满足这些特性,则可以被认为是异常的,而这些异常网页很可能是作弊页。

SpamRank是构建在PageRank计算之上的反作弊算法,PageRank是网页重要性评价指标,通过全局的链接关系可以选代计算网页的最终PageRank值。对于某个网页A来说,在最终获得其PageRank值后,可以分析获得哪些网页对于页面A的最终PageRank计算有比较重要的影响,这些网页被称为网页A的支持者(Supporter)。

SpamRank的基本假设是:对于正常页面来说,其支持者页面的PageRank值应该满足Power-Law统计分布,即PageRank值有大有小。而作弊网页则不然,其支持者页面的PageRank值分布不满足Power-Law分布,具有如下3个特点。

1、支持者页面数量非常巨大。

2、支持者页面的PageRank值得分都较低。

3、支持者页面的PageRank值都落在一个较小的浮动范围内。

SpamRank就是利用了作弊网页的支持者PageRank分值的不正常分布规律来自动发现可能的作弊网页的。首先计算网页的支持页面有哪些,之后判断其支持页面的PageRank分布是否违反了Power-Law分布,对于那些明显违反规律的页面作为可疑作弊页面。

最后,类似于BadRank的思路,通过这些可疑页面的链接关系,发现更多可能有问题的网页,作为可能的作弊网页。在SpamRank算法提出后,又陆续有类似思路的算法提出,比如截断PageRank算法(TruncatedPageRank)等在基本思想上和SpamRank算法思路基本相近。这些都是比较典型的符合异常发现模型的反作弊算法。

通用链接反作弊技术与具体作弊方法无关,具有通用性,只要作弊手段采用了链接分析,一般都会有一定的识别作用。但是通用性的代价是针对某些具体的链接作弊方法的,其识别效果因为没有针对性,所以可能不会太好,专用的链接反作弊技术则是非常有针对性的设计算法,往往效果较好。本节简述针对链接农场和Google轰炸的专用反作弊技术。

链接农场是作弊者精心构建起来的页面链接关系,和正常的链接必然有不同之处。很多研究通过比较正常网页之间链接关系的统计规律,同时研究链接农场网页之间的链接关系分布规律,通过比较两者之间的差异来识别链接农场。识别算法比较常用的统计特征包括如下几条。

1、网页出链的统计分布规律,正常网页的出链满足Power-law分布,作弊网页的出链违反该分布。

2、网页入链的统计分布规律,正常网;页的入链也满足Power-law分布,作弊网页则违反该分布。

3、URL名称统计特征,作弊网页的网址倾向于较长,包含更多的点画线和数字等。

4、很多作弊网页的URL地址尽管不同,但是常常会对应同一个IP地址。

5、网页特征会随着时间变化,比如入链的增长率、出链的增长率等,正常网页和作弊网页在这些变化模式上是不同的。

除了对比统计特征外,还可以利用链接农场的结构特征。链接农场的一个结构特征是农场内的网页之间链接关系非常紧密,这也是可以直接用来进行作弊识别的特征。使用一些紧密链接子图自动发现算法,可以识别出这些紧密链接的页面子图,研究表明这种紧密链接子图中很大比例确实是由作弊网页构成的。

Goge轰炸利用了指向目标网页的锚文字来操纵搜索结果排名,而锚文字很可能和被指向的页面没有任何语义关系,所以一个直观的判断方式即为判断锚文字是否和被指向页面有语义关系,如果有语义关系存在,则被判断为正常链接,否则可被判断为作弊链接但是事实上由于错文字都比较短小,如果在字面上和被指向页面内容没有直接关系也是很正常的,所以自动判断Google轰炸作弊具有较大难度。

针对内容作弊,往往可以采用一些启发规则或者内容统计分析的方式进行识别。

比如对于重复出现关键词这种作弊方式,可以判断文本内一定大小的窗口中是否连续出现同一关键词,如果是的话则消除掉重复出现的内容。

比如对于标题关键词作弊,可以判断标题词汇在文本正文出现的比例和权重,如果达到一定条件则可判断为标题关键词作弊。

也可以采用一些统计手段来进行内容作弊识别,比如统计正常网页中句子长度的规律、停用词的分布规律或者词性分布规律等,通过比较页面内容统计属性是否异常来识别内容作弊的情况。

页面隐藏的本质特征是向搜索引擎爬虫和用户推送不同内容的页面。所以一个直观的识别这种作弊方式的方法就是对网页做两次抓取,第1次是正常的搜索引擎爬虫抓取,第2次抓取则以模拟人工访问网页的方式抓取。如果两次抓取到的内容有较大差异,则会认为是作弊页面。很明显,这种方法虽然有效,但是对所有页面做多次抓取的成本显然非常高。

考虑到以上方法的效率问题,研究人员希望将识别范围缩小。因为作弊者大都具有商业动机,所以他们认为包含一些热门查询,以及具有商业价值查询词的页面更可能会采取隐藏作弊。可以从查询日志中挖掘最热门的查询,同时挖掘出能够引发搜索结果中出现“赞助商链接”的商业性词汇。经过分别使用搜索引擎爬虫和模拟人工访问,多次抓取排在搜索引擎结果前列的网页,并比较两次下载页面的单词重叠度。研究人员发现包含商业性词汇的页面中,如果网站采取了页面隐藏,则有98%的内容是作弊页面,而在包含热门查询词的网页中,这个比例是73%。

网页重定向是很容易识别的,目前大部分搜索引擎对于采取了重定向的网页都会有相应的降权惩罚。但是,采取了重定向的网页未必一定就是作弊网站,如何更精确地识别此类作弊方式是个值得探讨的问题。

Strider系统给出了根据网页重定向来识别到底哪些是作弊网页的解决方案。这个系统首先收集一批作弊页面,然后根据这批作弊网页进行扩展,如果有在论坛中和这些作弊URL经常一起出现的网页链接,会逐步将其扩充进可疑页面集合。之后,依次访问这些可疑URL,并记录下访问时是否做了重定向及重定向到哪个页面,如果某个页面被很多可疑URL重定向指向,则认为这个重定向地址是作弊网页,反过来,那些重定向到这个作弊网页的可疑URL,也被认为是作弊网页,其他可疑URL则可以被认为是正常网页。

只要操纵搜索引擎搜索结果能够带来收益,那么作弊动机就会始终存在,尤其是在网络营销起着越来越重要宣传作用的时代尤其如此。作弊与反作弊是相互抑制同时也是相互促进的一个互动过程,“道高一尺,魔高一丈”的故事不断重演。事实上纯粹技术手段目前是无法彻底解决作弊问题的,必须将人工手段和技术手段相互结合,才能取得较好的反作弊效果。

技术手段可以分为相对通用的手段和比较特殊的手段,相对通用的手段对于可能新出现的作弊手法有一定的预防能力,但是因为其通用性,所以针对性不强,对特殊的作弊方法效果未必好。而专用的反作弊方法往往是事后诸葛亮,即只有作弊行为已经发生并且比较严重,才可能归纳作弊特征,采取事后过滤的方法。

人工手段则与技术手段有很强的互补性可以在新的作弊方式一出现就被人发现,可以看做一种处于作弊进行时的预防措施。所以从时间维度考虑对作弊方法的抑制来说,通用反作弊方法重在预防,人工手段重在发现而专用反作弊方法重在事后处理,其有内在的联系和互补关系存在。

一个有效的搜索引擎反作弊系统一定是一个综合系统,有机融合了人工因素、通用技术手段和专用技术手段。

综合反作弊系统的框架,用户可以在浏览搜索结果甚至是上网浏览时随时举报作弊网页,比如Google推出了浏览器插件来方便用户举报,搜索引擎公司内部会有专门的团队来审核与主动发现可疑页面,经过审核确认的网页可以放入黑名单或者白名单中。

通用的反作弊方法大体有两类,一种类似于BadRank的思路,即从黑名单出发根据链接关系探寻哪些是有问题的网页;另外一种类似于TrustRank的思路,即从白名单出发根据链接关系排除掉那些没有问题的网页。两者显然有互补关系,通过两者搭配可以形成有效的通用反作弊屏障。这种通用方法的好处是具有预防性,哪怕是新出现的作弊方式,只要作弊网页需要通过链接关系进行操纵,那么通用方法就能在一定程度上起到作用。但是正是因为通用方法的通用性,所以其反作弊思路没有针对性,对于一些特殊的作弊手段无法有效发现。此时,针对特殊作弊手段的方法形成了第3道屏障,即搜索引擎公司针对具体作弊方法采取专用技术手段来进行识别,因为有针对性所以效果较好,但是缺点在于一类反作弊方法只能识别专门的作弊手段,对于新出现的作弊方法往往无能为力,而且在时间上往往滞后于作弊现象。

综上所述,这几种反作弊方法是有互补关系存在的,有效融合三者才能够获得较好的反作弊效果。

搜索引擎高级命令

搜索引擎核心技术详解10—网页去重

搜索引擎核心技术详解6—链接分析

搜索引擎核心技术详解5—检索模型与搜索排序

搜索引擎核心技术详解3—搜索引擎索引

搜索引擎核心技术详解2—网络爬虫

搜索引擎核心技术详解1—搜索引擎及其技术架构

搜索引擎工作原理介绍

知识像烛光,能照亮一个人,也能照亮无数人

搜索引擎发展简史

搜索引擎工作原理介绍

搜索引擎核心技术详解5—检索模型与搜索排序


相关标签: 搜索引擎核心技术详解8—网页反作弊SEO教程网

本文地址:https://www.badfl.com/article/cdfeadcd738e2b96c33e.html

上一篇:搜索引擎核心技术详解3搜索引擎索引...
下一篇:搜索引擎核心技术详解10网页去重...

发表评论

温馨提示

做上本站友情链接,在您站上点击一次,即可自动收录并自动排在本站第一位!
<a href="https://www.badfl.com/" target="_blank">自动秒收录</a>