2019 年 10 月 25 日,Google 宣布 BERT 更新上线,可以以更接近人的方式去理解 Query(用户搜索词)的含义,从而提升搜索体验,预计影响 10% 的英文搜索。并且,Google 称 BERT 算法是过去五年来突破最大的算法,也是 Google 搜索历史上突破最大的算法之一。本文是我针对 Google BERT 算法的完整说明,并将持续更新。
什么是 BERT 算法
BERT 的全称是 Bidirectional Encoder Representations from Transformers,是一种基于神经网络的自然语言处理预训练的技术。BERT 算法最大的突破是可以通过前后的单词来理解某个单词的内在含义,从而增强对 Query 内在含义的理解,而不是逐个单词去单独理解。
注:
BERT 模型被称为 “最强 NLP 模型”,Google 也在 2018 年底开源了 BERT 模型,相关论文也荣获 NAACL 2018 年的最佳长论文;
我在内网搜索了下,BERT 算法已经在智能机器人、Feeds 等多个方面实践。
具体内容和影响
利用 BERT 算法,Google 可以加强对 Query 的理解,从而影响搜索结果。目前 Google 称大概会影响 10% 的美国地区的英文搜索,之后将推广到其他语言和国家。Google BERT 算法在 10 月 21 日左右切流,在 27 日完全上线,所以 SEOs 可以具体观测 27 日之后的数据变化。
另外,精选摘要(Featured Snippets)已经在全球 20 多个国家应用了 BERT 算法,比如韩语、印地语、葡萄牙语。
BERT 算法的示例
示例一
Query 为2019 brazil traveler to usa need a visa
。其中的单词to
和其他单词的关系对理解整个 Query 的含义非常重要。这个 Query 是巴西人去美国旅游,如果用之前的算法(按照文本匹配),是无法理解其中的关系,会返回美国人去巴西的相关结果。但借助 BERT 算法,可以理解其中的细微差距,并能知道单词to
有很重要的内在含义,这样就可以给出更相关的网页结果。
示例二
第二个 Query 是do estheticians stand a lot at work
,按照之前文本匹配的模型,Query 中的stand
找到的匹配网页是包含stand-alone
的结果(因为包含stand
),但实际上并不是 Query 中stand
的含义。在 BERT 模型下,可以理解stand
是身体上站立的概念,所以会返回更相关的网页。
关于 BERT 对 Query 中内在含义的精确理解,还有以下 3 个示例:
SEOs 该做什么
那么问题来了,针对这次 “爆炸性”的 BERT 更新,SEOs 应该做些什么?答案是:什么都不用做。Google 的 Danny Sullivan 原话是:"不需要针对 BERT 做任何优化,要保持初心:为用户提供优质内容。"
我对 BERT 算法的看法
为什么要推出 BERT 算法呢?Google 每天有 15% 的 Query 是从未搜索过的,而之前的文本模型对 Query 的理解比较浅显,无法 get 到内在含义。Query 的识别其实是 Google 搜索闭环的第一步,所以极其重要。之前的熊猫算法、企鹅算法,都是针对网页排序的优化,都只属于第二步。
另外,因为是对 Query 识别的升级,对偏长尾流量的影响越明显。
最后,从我的实际观测以及论坛的反馈来看,BERT 算法其实并没有想象中的大幅影响,甚至还不如日常的算法更新,可能是因为并不是针对排序的优化。下图是 Algoroo.com 的排序监控情况:
相关文档
《Understanding searches better than ever before》https://www.blog.google/products/search/search-language-understanding-bert/
《Google BERT Update Impacts 10% Queries & Has Been Rolling Out All Week》https://www.seroundtable.com/google-bert-update-28427.html
Google SearchLiaison 在 Twitter 对 BERT 算法的说明:https://twitter.com/searchliaison/status/1187732030399889409
Danny Sullivan 在 Twitter 对 BERT 算法的说明:https://twitter.com/dannysullivan/status/1188689288915050498