毛仲卫带您解读--Google caffeine下面是格里姆斯的博客全文:
今天我们对外宣布,Google新型网络内容索引系统Caffeine的技术开发工作已经完成。与我们当前使用的索引技术相比,Caffeine检索结果时效性会提高50%,它也是截至目前Google所能提供规模最大的网络内容检索系统。无论是网络新闻,还是博客文章以及论坛发帖内容,一旦这些内容发布,Caffeine将能马上收录这些内容的相应链接。
对于那些并不是以搜索技术开发为生的网民而言,Caffeine的大致技术原理是:你在使用Google搜索过程中,你并不是搜索互联网本身,而是在Google所建立的网络内容索引中查找相关内容。这就好比你先查看某本书的目录,然后再根据目录的提示找到你想阅读的内容。
那我们为何要开发新型Caffeine索引技术?原因就是互联网内容的规模每天都在增长。互联网内容的增长并不仅仅体现在数量上面,而且还出现了视频、图片和实时更新等内容。与以往相比,目前平均每个网页所含信息量比以前更为丰富。此外,网民对搜索引擎性能的期望值比以前更高,他们希望能够更及时查找到互联网上刚刚发布的内容。
为适应互联网产业的向前演进以及满足网民的需求,我们开发了Caffeine索引系统。我们老式索引采用了多层技术,而部分索引层的内容更新快于其他层面;主索引层通常是每隔数周更新一次。如果我们要更新其中的某个索引层,就是必须对整个互联网进行分析。如此一来,网民所搜索到的结果,与互联网的实际内容之间会有一个时间差。
利用Caffeine技术,我们将互联网划分为不同的部分,然后以连续状态在全球范围对不同部分内容加以升级。当我们发现了新内容,只需将这些新内容添加到当前索引当中。这就是说,你在使用Google搜索过程中,所获得的结果与互联网实际内容的时间差已经非常小。
Caffeine技术可以使我们实现对网络内容索引的规模化。事实上,Caffeine每秒钟可同时处理数十万个网页。如果这些网页是现实生活中的纸张,则这些纸张每秒钟将堆成3英里高。Caffeine在一个数据库中可处理近1亿GB的存储信息,且每天存储信息量都在大幅增长。你需要使用62.5万部容量最大的iPod音乐播放器才能存储这些信息,如果将这些iPod并排放置,则可长达40英里。
我们开发Caffeine技术,其实是着眼于互联网产业的未来发展。Caffeine不仅仅提高了网络索引的时效性,而且使我们希望组建性更强大的搜索引擎成为可能,然后再向网民提供质量更好的搜索服务。请关注Caffeine的发展,今后数月内,我们将对Caffeine技术加以进一步完善和改进。
我使用颜色标出其中的几个亮点关键词(要是您看不见其中的标注请到(www.yingwenseopeixun.com)查看原文),
Google caffeine 并不是一个新的技术,在互联网信息爆炸的年代,
其实很多学术界的牛人们一直都在研究如何解决类似Google caffeine 这样的技术,我这里举个例子吧!Google caffeine可
以理解成:基于主题词库的分布式&垂直搜索引擎系统实现
什么说呢?信息不断的增长搜索引擎在基于不断提高搜索结果体验度的原则下,就必须让检索结果更丰富,更准确,更新!
Google 其实一直在解决如何提高搜索结果丰富度的问题,例如:
(猛点我看看
),搜索结果的准确性更不用说了,这是每一个搜索引擎的命根子! 搜索引擎结果的时间问题其实Google
也一直在努力,他在全球分布了很多的服务器来更新这个互联网。
回到主题上看看Google caffeine是如何解决上面的几个问题的,Google这回来了一次复古,不过复古也是需要付出代价
的!不具备一定的硬件条件和软件基础是很难实现的。
Google caffeine使用目录检索技术,我相信谷歌的爬虫也应该是基于语义的爬行,内容的储存也是目录式的, 而且是分区域
的检索! 虽然是很老的技术其中要解决很多的技术难题,
算法要很成熟才能把互联网划分为不同的区域来检索,和实现分布式检索等等的技术难题,这些都是基于分布在全球各地的
Google服务器支持!
那Google caffeine反应出来的技术对于英文SEO 有什么启迪呢?Google caffeine的索引数据库需要把你的站分布在一个
特定内容的数据库中,
对于页面内容的确定,在爬虫抓取的时候可能已经初步确定了然后由信息处理系统来完成页面内容的确定,上面我也说了爬虫
基于语义爬行!
在根据信息处理系统确定一个页面的内容完成后 爬虫就会根据URLs去爬行这个页面发现新的URL。所以你必须想办法确定你
的页面是什么内容!
下一篇文章我将给出基本的解决方案,敬请期待!
下面就一张图引出下一篇文章的主题:

本文到目前为止有0条评论