谷歌搜索下线快照,互联网似乎真的要没有记忆了
刻在石头上的碑文会风化、写在纸上的文字会腐朽,数千年以来,如何保存知识始终是人类文明的一大关键课题。直到互联网的出现,它成为了一个被认为保存信息的绝妙载体,“互联网是有记忆的”这句话在多年以前更是被奉为圭臬。然而时过境迁,随处可见的“404Not found”让“互联网没有记忆”已然成为大家公认的事实,如今谷歌的新动作,则又加深了这一刻板印象。
近期,谷歌搜索公共联络人Danny Sullivan确认,谷歌方面将删除所有搜索结果中的网页快照/缓存链接,未来用户将无法在搜索结果里点击缓存来查看网页被谷歌爬虫索引时生成的网页快照。并且Danny Sullivan还透露,缓存操作符“cache:”预计也将会被移除。为此谷歌给出的解决方案,是在搜索结果中添加互联网档案馆(The Internet Archive)的链接,以取代“关于本结果”部分的谷歌缓存链接。
但作为一家非营利性组织,如今互联网档案馆的日子也不太好过,它在去年就先后面临美国图书出版商、唱片公司总计3.72亿美元的天价索赔。更何况作为全球最受欢迎的搜索引擎,谷歌搜索的用户规模极为庞大。按照去年谷歌方面在数字服务法(DSA)要求下向欧盟报告的数据显示,谷歌搜索仅仅在欧盟地区的月活就高达3.32亿。所以显而易见,互联网档案馆的服务器不太可能及时缓存来自谷歌搜索抓取的网页。
如此一来,继国内市场的百度、搜狗、360之后,谷歌搜索也实质上放弃了快照功能。关于为什么会突然不再提供搜索结果中的网页快照、缓存,谷歌的说法是其最初提供缓存链接选项主要为了帮助用户可靠地访问网页,比如面对网页无法加载时,现在随着网络技术的发展,许多网站已经可以提供很好的可靠性,所以为了防止网页打不开而进行的缓存,已经没有必要。
网页缓存或者说快照,其实可以理解为是一份网页的副本,早期由于技术条件的限制,有相当多的网站存在访问不稳定的问题,以至于会出现用户通过搜索引擎的结果访问时,发现网站无法打开,这时候快照的作用就出现了,它就好比给网页拍了一张照片,让用户能够从快照中找出网页上的有用信息。
同时,网页通常并不是一成不变的,而是不断增加、删除、改动,为了保证用户使用搜索引擎时总能找到需求的信息,搜索引擎的数据库定时更新抓取的网页,就意味着当某个网站删除一个网页后,数据库里的网页快照并不会立刻被删除,而是要到下一次更新时才会同步。此外网页快照还可以避免由于内容太多,想要完整大量储存网页内容时带宽不够的问题,抓取快照可以以最少的带宽就将其保存下来。
早期网络基础建设不建全、网速慢是常态,再加上网站建设水平良莠不齐,技术不规范、不成熟等问题,先不说网站本身的体验如何,很多网站可能单单是打开页面都费劲,于是搜索引擎为了保障用户体验,就搞出了快照这个功能。但随着时间的推移,特别是云服务相关技术的跨越式发展,网站访问不稳定的现象几乎已经成为了传说,网页无法打开的情况也愈发罕见,就使得快照功能存在的意义就没有了。
要知道,互联网上有数以百亿计的网页,为了保存快照信息,即使百度、谷歌将搜索引擎收录的网页以纯文本的形式备份,其他资源,如样式表和图片等内容不会被缓存。在聚沙成塔的情况下,过去二十余年间积累的快照对于服务器显然已经成为了一个不小的负担。毕竟快照的存储必然会产生服务器资源的占用,清空快照页面就可以将释放出来的空间挪至其它用途,从而达到“降本”的作用。
在如今全球互联网厂商都采取“降本增效”的背景下,砍掉不影响核心体验的功能已经是大趋势。再加上AI搜索已然成为了趋势,当用户看到的是AI对于用户需求信息的总结,被索引的网页主要起到类似“文献”的作用,以佐证AI总结内容的可靠性时,当用户在使用搜索引擎时不再需要打开网页,保存网页快照又有何用呢?
除了以上两点外,快照功能最近几年也逐渐被SEO从业者滥用。比如可以通过投诉快照来做排名,通过快照做收录等,SEO从业者利用模拟点击来绕开算法,借助快照功能将随意采集拼凑的垃圾站点快速排到首页。于是乎,搜索结果页的内容质量每况愈下,就逼得搜索引擎不得不将其权重降低。
甚至有些黑灰产团队,还会使用SEO快照劫持来影响搜索引擎的正常排名。通过网站存在的漏洞或其它违规方式获取网站后台权限,再通过注入恶意代码从而实现快照替换的目的。通常来说,黑灰产会给目标网页挂上一段加密的JavaScript代码,该代码的功能则是判断访问网页的是不是搜索引擎的爬虫,如果是爬虫程序则不做任何操作,让搜索引擎正常抓取;如果判断是用户,则会执行JS跳转代码,将网站的正常页面替换为恶意网页。
所以当一个功能用户不再经常使用、且需要消耗大量服务器资源,同时还可能会被黑灰产利用时,百度、谷歌等搜索引擎将其关闭就再正常不过了。只可惜在没有了快照后,注定就会有一大批网页因为缺乏维护或内容更新,而遗失在互联网庞大的信息海洋里。
- 0002
- 0002
- 0000
- 0000
- 0001