谷歌个性化搜索结果 算法浅析

谷歌个性化搜索 结果算法发布并执行已经有了一段时间了,但是很多谷歌搜索用户对其存在有褒贬不一的一些声音。支持的人认为,这是一项伟大的进步,能够让搜索用户在更短的时间内获得更高效的搜索结果。反对的人认为,这种个性化搜索结果导致了搜索结果的个性化便宜,使得原本正常应该显示的一些内容没有能够展现出来(这很大程度上是因为一些外界环境和谷歌个性化搜索结果 算法本身不完善所导致的)。那么我们今天就来看看 谷歌个性化搜索 结果算法的具体实施步骤和相关注意的事项。

一、什么是谷歌个性化搜索结果

如上图所示,箭头所指向的红色框中,我们可以看到一行小字—“suggested based on your recent activity”,翻译过来就是“根据您最近的活动建议”。因为我当前的搜索关键词是“noise cancelling headphones(降噪耳机)”,所以谷歌搜索引擎就结合我本次搜索之前的相关搜索行为记录给我推荐了上图中的这些降噪耳机的款式。这是一个很有意思的搜索结果,当你也是使用这个关键词查询的时候,我猜大概率的情况下你们看到的搜索结果是不一样的。所以我们知道了,谷歌个性化搜索结果是基于当前用户的一些搜索行为习惯所记录下来的基础数据来进行运作的。

二、谷歌官方对个性化搜索结果的说明

互联网搜索引擎的目标是识别与用户需求相关的文档或其他项目,并以对用户最有用的方式呈现文档或项目。这种活动通常需要大量的读心术——从各种线索推断出用户想要什么。某些线索可能是用户特定的。例如,用户正在请求移动设备的知识以及设备的位置的知识可以为这样的用户产生更好的搜索结果。

关于用户需求的线索也可能更一般。例如,如果多个其他搜索结果链接到搜索结果,则搜索结果可能具有更高的重要性或推断的相关性。如果链接结果本身具有高度相关性,则链接到结果的相关性可能特别高。这种确定相关性的方法的前提可能是,如果网页作者认为另一个网站有足够的相关性可以链接到,那么网络搜索者也会发现该网站特别相关。简言之,网络作者“投票”网站的相关性。

可以使用其他各种输入来代替用于确定搜索结果并对搜索结果进行排序的此类技术,或者除此之外使用其他各种输入。例如,可以测量用户对特定搜索结果或搜索结果列表的反应,以便用户经常单击的结果将获得更高的排名。如果搜索结果比一般的搜索方法更具相关性,或者至少在这样一种假设下,用户选择的结果更具相关性。

从上面这段话中,我们可以提取这样一个逻辑:谷歌想给用户更好的使用体验,但是基于外链权重的算法给出的结果较为笼统,所以要在外链权重算法的大框架下加入个性化搜索算法来提高更加精准性的内容来进一步提升用户的使用体验!

既然谷歌个性化搜索结果是基于每个不同搜索用户的相关历史搜索数据来进行呈现,那么到底哪些数据是被谷歌抓取并会参与到个性化搜索结果中来呢?由于我们不可能获得该搜索算法专利的具体详情所以只能用猜测结合实际情况的方式去一探究竟。

在服务器系统接收查询信息,其中包含来自搜索者的查询的一部分根据查询和指示搜索者的数据(相对于之前提交的查询),获取与搜索者的查询部分相关的预测查询集向搜索者提供预测查询集,在该过程中涉及的更多特性,例如获得预测查询,包括根据排序标准对预测查询集进行排序等等

这些排名标准基于指示搜索者相对于先前提交查询的行为数据,那么搜索者先前提交查询的行为数据又有哪些会被记录下来并被作为个性化搜索结果算法的运行依据呢?我们猜测可能有下面这些项目:

点击数据特定位置的数据特定语言的数据其他类似类型的数据

说到这里,Jakc老师就不得不提到一个新知识点—《索引,评分,排名和排名修改器引擎》,我们先来看一张算法机制的流程图:

在这个闭环的算法机制中,我们主要关注的是4个对象:索引引擎、评分引擎、排名引擎和排名修正引擎。

三、个性化搜索结果算法机制的分析

评分引擎

评分引擎可以根据许多不同的特征为网站页面或者文章进行评分,包括但不仅限于:

1.将查询链接到文档结果基于内容的功能:基于内容的功能包括文档格式的各个方面,例如与HTML(超文本标记语言)页面中的标题或锚文本的查询匹配

2.通常说明文档结果质量的独立查询功能:独立于查询的特性可以包括文档交叉引用的各个方面,例如文档或域的级别。

此外,评分引擎使用的特定功能可以通过自动或半自动过程进行调整,将各种功能贡献调整为最终的IR得分。(备注:使用传统技术来确定索引文档的信息检索简称为IR)

排名引擎

排名引擎可以从评分引擎接收到的IR分数以及可能来自排名修改器引擎的一个或多个信号来生成文档搜索结果排名以显示给搜索用户。跟踪组件可以记录关于排名中显示的搜索结果的单个搜索者选择的信息。以下是一些谷歌官方的声明

例如,跟踪组件可以嵌入包含在网页排名中的JavaScript代码,该代码标识用户选择(单击)单个文档结果,并确定用户何时返回结果页面,从而指示用户查看选定文档结果所花费的时间。在其他实现中,跟踪组件可以是一个代理系统,通过该代理系统路由用户对文档结果的选择,或者跟踪组件可以包括客户端上预先安装的软件(例如,客户端操作系统的工具栏插件)。其他实现方式也是可能的,例如使用允许在页面中包含标记/指令的web浏览器的功能,该功能要求浏览器通过用户单击的链接消息将其连接回服务器。

记录的信息可以捕获每个选择,比如

查询(Q)
文件(D)
文件时间(T)
用户使用的语言(L)
用户可能所在的国家(C)(例如,基于用于访问IR系统的服务器)
……

记录的有关搜索者与所显示排名的互动的信息

负面信息:例如未单击的显示的文档结果
用户界面中点击的位置
点击结果的IR得分
单击结果之前显示的所有结果的IR分数
在点击结果之前向用户显示的标题和摘要
用户的Cookie
cookie年龄
IP(互联网协议)地址
浏览器的用户代理
……

排名修正引擎

整个会话或多个会话的类似记录信息(例如IR分数、位置等),包括当前单击前后发生的每次单击。

存储在结果选择日志中的信息,由排名修饰符引擎用来生成一个或多个信号到排名引擎。

搜索结果选择日志中存储的信息以及跟踪组件收集的信息也可以由搜索助手访问,搜索助手也是信息检索系统的组件。

除了从这些组件接收信息外,搜索助手还可以监视用户对搜索查询的输入。

收到部分搜索查询后,查询以及来自跟踪组件的信息(例如,单击数据)和结果选择日志可用于预测搜索者预期的完整查询。

基于此信息,预测结果可以在呈现之前根据一个或多个排名标准排序,以帮助用户完成查询。

四、谷歌个性化搜索结果运行机制

在分析完第三部分的评分引擎、排名引擎和排名修正引擎之后,我们再来完整的看一下谷歌个性化搜索结果运行机制:

1.谷歌搜索引擎提出搜索建议

每当搜索用户输入一个关键词中的单词,谷歌搜索引擎就开始监控该对象的输入内容,然后在浏览器的主搜框中提供相对应的关键词建议,如果中途该用户选择了浏览器提供的关键词建议,那么立即执行当前的建议结果,如果中途没有停顿,那么完整的执行输入的所有关键词单词,输出对应的排名结果。

2.基于该用户之前提交的查询数据搜索建议预测信息模型

在搜索建议的提交过程中,谷歌搜索引擎还会参考该用户之前的也流浪记录和页面交互数据,比方说某个页面上的停留时间和锚文本内容,进一步判断出该用户对搜索内容的关注度和喜爱偏好。谷歌会对这些交互式项目进行加权评分,对重点关注内容以较高的分值来提升下一步个性化搜索结果中出现的概率。(但是要注意,这个权重分值是对该搜索用户的单一体现,不会作用在其他搜索用户的搜索结果当中!)

最后,要注意谷歌个性化搜索结果与首页中出现的“people also ask”等搜索建议是有比较大的区别的,最大的不同在于,谷歌个性化搜索针对的是某一个人搜索用户,而“people also ask”针对的是某个关键词的同一类型搜索用户。

好了,以上就是本章关于 谷歌个性化搜索 结果算法浅析的全部内容,文章中理论部分内容较多,参考的翻译也有点晦涩难懂,希望不懂的同学自己去多查看相关内容的文章。

如果还有不理解的地方,请使用百度或者谷歌浏览器搜索关键词--“Jack外贸建站”,排名首页首位的就是我的网站,网站上有更多外贸建站、谷歌SEO优化、外贸客户开发等实操干货内容在等着你哦!

原文来自邦阅网 (52by.com) - www.52by.com/article/44960

声明:该文观点仅代表作者本人,邦阅网系信息发布平台,仅提供信息存储空间服务,若存在侵权问题,请及时联系邦阅网或作者进行删除。

评论
登录 后参与评论
发表你的高见