谷歌搜索引擎全面揭秘!近百份文档泄露,博主爆肝数周逆向工程

AIGC动态4个月前发布 AIera
666 0 0
谷歌搜索引擎全面揭秘!近百份文档泄露,博主爆肝数周逆向工程

 

文章摘要


【关 键 词】 谷歌技术Vizier系统黑盒优化搜索引擎质量评估

谷歌的搜索引擎Vizier系统近期成为技术讨论的热点。DeepMind的高级研究科学家Xingyou (Richard) Song等人发表的论文详细解释了Vizier服务背后的算法。Vizier是一个黑盒优化器,它通过数百万次的运行帮助谷歌内部进行研究和系统优化。谷歌云和Vertex也推出了Vizier服务,协助研究者和开发人员优化超参数和进行黑盒优化。与Ax/BoTorch、HEBO、Optuna、HyperOpt、SkOpt等其他行业基线相比,Vizier在高维度、批查询、多目标问题等用户场景中表现出更稳健的性能。谷歌的Jeff Dean也在推特上赞扬了Vizier系统,同时开源版Vizier已经在GitHub上托管,提供了详细的文档说明,并在持续更新中。

此外,谷歌搜索引擎的核心技术原理通过数千份泄露的法庭文件被部分揭秘。谷歌搜索的复杂性体现在其爬虫系统、索引系统Alexandria、粗排名系统Mustang、过滤和细排名系统Superroot,以及负责最终呈现页面的GWS。新网站要被谷歌索引,首先需要通过爬虫和数据收集系统,然后由存储服务器决定是否转发URL或将其放入沙箱中。Alexandria为每个网页内容分配唯一的DocID,并在出现内容重复时将URL链接到已有的DocID。搜索词“pencil”通过QBST系统分析并分配权重,然后传递给Ascorer进行处理,生成发布列表。Superroot系统进一步将这个列表缩减为最终的搜索结果。

谷歌的质量评估员和RankLab实验室在全球范围内负责评估搜索结果,并对新算法或过滤器进行上线前的测试。评估员的评分和投标票对排名产生极大的间接影响。NavBoost系统在Superroot中收集用户与搜索结果交互的数据,尤其是点击量,尽管谷歌官方否认将用户点击数据用于排名,但FTC披露的内部电子邮件显示点击数据确实会影响排名。

GWS负责呈现搜索结果页面,包括“蓝色链接”和各种元素。FreshnessNode、InstantGlue和InstantNavBoost等组件可以在页面显示前的最后时刻调整排名,确保搜索结果与最新的搜索意图匹配。SEO专家和数据分析师的报告显示,用户的点击量基本上代表了用户对结果相关性的意见,包括标题、描述和域名。谷歌的John Mueller强调,排名下降通常并不意味着内容质量不佳,用户行为的变化或其他因素可能会改变结果的表现。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 5940字 | 24分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...