自动秒收录

以人工智能为基础的搜索算法是什么样的?


文章编号:957 / 更新时间:2023-04-11 / 浏览:

三年前,Googled的AlphaGo横空出世时,我写了《AlphaGo、深度学习及SEO》这篇帖子,在那之后,我一直非常关注人工智能与搜索算法的进展。

人工智能与搜索算法

我不知道搜索算法什么时候会大规模以AI为基础,也不知道目前AI技术在搜索算法中应用到了什么程度。由于目前人工智能技术的不可解释性,搜索引擎以AI作为算法基础会是非常谨慎的,不然很不容易debug。

不过算法中的一些模块应用AI是肯定的,以前介绍过百度的DNN模型和Google的RankBrain算法,都是AI在搜索算法中的应用。

那么完全以人工智能为基础的搜索算法是什么样的?工作原理和流程是什么?简单说一下我的理解。

人工智能的优势与搜索

目前实现人工智能的主流方法是机器学习中的深度学习分支,在这篇帖子里就不加严格区分了。

传统的搜索算法是搜索工程师人工选择排名因素,人工给予排名因素一定的权重,根据给定公式,计算出排名。这种方法的弊端是,当数据量大了,排名因素多了的时候,调整排名因素的权重是件很困难的事。最初的权重很可能就是根据常识,再加上拍脑袋,具有很大的主观随意性。当有几百个因素,这些因素又互相影响时,调整这些因素的权重就变成混乱、无法预见结果的事了。

而从海量数据中找模式正是AI的擅长。AI可以快速寻找可能的排名因素,调整排名因素权重,自动迭代计算,拟合出排名因素和用户满意的搜索结果之间的计算公式。

通过训练数据训练出来的计算公式就是AI搜索算法,可以应用于用户更多的搜索了。

前不久Google质量评估指南帖子里详细介绍了质量评估员的工作。这些真实用户(他们不是Google员工),在学习质量评估指南后,Google在评估系统中给评估员真实网站、真实查询词数据,评估员进行相关评估,最主要的就是:

给特定查询词的搜索结果打分

Google的质量评估员很早就存在了,应该不是为了开发AI算法招募的,而是用来评估传统算法质量的。但他们的评估数据刚好可以被人工智能系统有效使用。

这样,AI系统就知道,针对某个查询词,用户满意的搜索结果是哪些页面,是按什么顺序排名的。

训练人工智能搜索算法

与传统算法不同的是,需要哪些特征(排名因素),这些特征给予多少权重,不是工程师决定的,是AI系统自己寻找和评估的。这些因素也许是工程师想得到、早就在用的,比如:

页面的关键词密度

页面上有没有广告

页面有多少外部链接

页面有多少内部链接

页面有多少以查询词为锚文字的链接

页面所在域名有多少外链

页面打开速度多快

等等等等,可能有几百上千个

也许是工程师压根儿没想过的,也许有些是表面上看起来毫无关系、毫无道理的,比如:

页面正文用的几号字

页面第一次被抓取是星期几

页面外链数是单数偶数

以上只是举例,为了说明,AI寻找的不是因果关系,而是相关关系。只要AI看到排名好的页面有哪些特征就够了,至于把这些特征与排名联系起来是不是看着有道理,并不是AI关心的,也是不必要关心的。

当然,有些因素可能是负面的,比如域名长度,很可能与高排名是负相关的。

被训练过的AI搜索算法就可以应用于其它没在训练数据里的查询词了。

验证过的算法就可以上线,接受真实用户的检验了。这里很可能牵扯到一个SEO们普遍认为与排名有关、但搜索引擎一直否认的排名因素:用户体验数据是否是排名因素?

很多SEO排名因素统计表明,页面点击率、跳出率、用户停留时间、访问深度与排名有很高的相关性,但Google一直明确否认这些数据是排名因素。当然,对百度来说,点击率显然是排名因素。

原因很可能就是,搜索引擎需要用这些用户体验数据验证搜索算法质量,如果用户普遍点击率降低、跳出率提高,说明新上线的算法有问题,需要调整。虽然搜索引擎没有直接使用用户数据来排名,但算法的目标就是提高用户数据,使得这两者之间高度相关。

扫描二维码推送至手机访问。

3浏览自媒体运营与推广

2浏览网站结构优化

2浏览外部链接建设

2浏览自媒体运营与推广


相关标签: 人工智能

本文地址:https://www.badfl.com/article/965f976d905926277970.html

上一篇:一个关于Google排名的有趣问题...
下一篇:未来SEO也许不用再操心爬行抓取问题?...

发表评论

温馨提示

做上本站友情链接,在您站上点击一次,即可自动收录并自动排在本站第一位!
<a href="https://www.badfl.com/" target="_blank">自动秒收录</a>