搜索引擎发展史,从国外到国内
发布:ycdsk | 发布时间: 2010年5月14日第一章主要讲的内容是搜索引擎的发展史,从万维网的诞生,到网络爬虫的出现;从人工发现信息,到由下载系统自动抓取信息;从王牌雅虎,到新兴谷歌。这一章里都会已时间为线索一一展开,由于这一部分知识尚未涉及到搜索引擎优化的内容,因此,笔者只作为补充知识来阅读。
处于好奇,笔者在百度里输入“搜索引擎的发展历史”,得到的结果大多一样,而且相比之下,逊色于书中的内容,因此笔者决定,引用原文内容,传播该书作者的劳动成果。
注:翻译后文中出现“P”,表示书中的页数
P5-P14 搜索引擎的发展历史(引用全文)
1990年以前,没有任何人能用万维网。
所有搜索引擎的祖先是1990年由Montreal的Mcgill University学生AlanEmtage、Peter Deutsch和Bill Wheelan发明的Archie(Archie FAQ)。虽然当时world wideweb 尚未出现,但网络中的文件传输还是相当频繁的。由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便。因此Alan Emtage等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie。它是第1个自动索引万维网上匿名FTP网站文件的程序,但还不是真正的网络搜索引擎(Web Search Engine)。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。
由于Archie深受欢迎,一次受其启发,Nevada System Computing Services大学于1993年开发了一个Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是后来另一个Gopher搜索工具
Robot(机器人)一词对编程者有着特殊的意义,Computer Robot是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序。由于专门用于检索信息的Robot程序如同蜘蛛(spider)一样在网络间爬来爬去,因此搜索引擎的Robot程序被称为“Spider(Spider FQA)程序”。世界上第一个Spider程序是MIT MatthewGray的World Wide Web Wanderer,用于追踪万维网的发展规模。刚开始它只用来统计万维网上的服务器数量,后来则发展成为也能够捕获地址(URL)。
与Wanderer相对应,1993年10月,Martijn Koster创建了ALIWEB(MartijnKoster Annouces the Availability of Aliweb)。它相当于Archie的HTTP版本,并且不适用网络搜索Robot。如果网站主管们希望自己的网页被ALIWEB收录,需要自己提交每一个网页的简介索引信息,类似于后来大家所熟知的Yahoo。
随着万维网的迅速发展,使得检索所有新出现的网页变得越来越困难,因此在Wanderer基础上,一些编程者对传统的Spider程序工作原理做了些改进。其设想是既然所有网页都可能有连向其他网站的链接,那么从一个网站开始跟踪所有网页上的所有链接,就有可能检索整个万维网。到1993年年底,一些基于此原理的搜索引擎开始纷纷涌现,其中最负盛名的是Scotland的JumpStation、Colorado大学Oliver McBryan的The World Wide Web Worm(FirstMention of McBryan`s World Wide Web Worm)和NASA的Repository-BasedSoftware Engineering(RBSE)spider。JumpStation和WWW Worm只是以搜索工具在数据库中找到匹配信息的先后次序排列搜索结果,因此毫无信息关联度可言。而RBSE是第1个索引Html文件正文的搜索引擎,也是第1个在搜索结果排列中引入关键字串匹配程度概念的引擎。
1、 Excite
Excite(http://www.excite.com)有当时还是一个以车库为办公室的软件公司Architext Software研发,1996年其宣传已经能够索引150万的Web网页,而且每周更新一次索引。它不仅能够提供关键词查询,还能够提供概念查询。2002年5月被Infospace收购的Excite停止自己的搜索引擎,改用元搜索引擎Dogpile。
2、 Yahoo
Yahoo(http://www.yahoo.com),1994年4月,Stanford University的两名博士生,美籍华人Jerry Yang(杨致远)和David Filo共同创办了Yahoo(Jerry Yang Alerts a Usenet group to the YahooDatabase,1996年的Yahoo)。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的库搜索。因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。Wanderer只抓取URL,但URL信息含量太小,很多信息难以单靠URL说清,搜索效率很低。Yahoo!中收录的网站,因为都有附有简介信息,所以搜索效率明显提高(注:Yahoo以后陆续使用Altavista、Inktomi、Google提供搜索引擎服务)
3、WebCrawler
1994年年初,Washington大学的CS学生Brian Pinkerton开始其小项目WebCrawler(Brian Pinkerton Announces the Availability of Webcrawler)。1994年4月20日,WebCrawler正式亮相,当时仅包含来自6000台服务器的内容,它是万维网上第1个支持搜索文件全部文字的全文搜索引擎。在其之前,用户只能通过URL和摘要搜索,摘要一般来自人工评论或程序自动取正文的前100个字(后来Webcrawler陆续被AOL和Excite收购,现在和Excite一样改用元搜索引擎Dogpile)。
4、Lycos
Lycos(http://www.lycos.com),是狼蛛(wolf spider)的拉丁文前5个字母构成,诞生于号称美国4大计算机高校的Carnegie Mello大学。不就被美国在线(America Online)购买,成为Lycos公司,创始人Michael Mauldin继续在Lycos公司工作,而Lycos也继续为万维网社区提供免费的查询服务。Lycos是第1个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其他搜索引擎的数据量。1996年1月,Lycos已经索引了95%的Web资源(包括1900万个独立URL),因此成为当时屈指可数的大型搜索引擎。然而它还是没有能够索引网页的全文信息(the full text of a Web page)仅仅能够索引标题和正文的前20行或者前20%的正文,Lycos的竞争对手在这个明显的弱点上不断大做文章。
5、 Infoseek
Infoseek(Steve Kirsch Announces Free Demos Of the Infoseek Search Engine)是另一个重要的搜索引擎,虽然公司声称于1994年1月以创立,但直到年底其搜索引擎才与公众见面。起初,Infoseek只是一个不起眼的搜索引擎,它沿袭Yahoo!和Lycos的概念,并没有什么独特的革新。但是其发展史和后来的众口称赞证明,第1个登台并不总是很重要。Infoseek友善的用户界面及大量附加服务(such as UPS tracking,News,a directory,and the like)使其声望日隆。而1995年12月与Natscape达成的战略性协议,使它成为一个强势搜索引擎。当用户点击Netscape浏览器上的搜索按钮时,弹出Infoseek的搜索服务,而此前由Yahoo提供该服务(Infoseek后来曾以相关性闻名,2001年2月,它停止了自己的搜索引擎,开始改用Overture的搜索结果)。
6、 Alta Vista
Alta Vista(http://www.altavista.digital.com)。1995年的春天,在位于加利福尼亚Palo Alto的数字研究实验室里,Alta Vista的研究计划被正式启动。1995年的12月15日,Alta Vista正式发布。到1996年,Alta Vista已经索引了1600万的网页全文,其宣称每天抓取250万的网页,每小时索引1GB容量的文本。Alta Vista最大的贡献在于支持了布尔查询、单句查询(phrase searching)及特定域查询(例如标题查询和URL查询等),而且支持查找网页的Backlinks,即查询一个网页被哪些网页所指向。Alta Vista的第1个支持用户自己向网页索引库提交或删除URL的搜索引擎,并能在24小时内上线。
7、HotBot
随后到来的HotBot,1995年9月26日,加州伯克利分校CS助教EricBrewer和博士生Paul Gauthier创立Inktomi(UC Berkeley Announcers Inktomi)。1996年5月29日,Inktomi公司 成立,强大的HotBot出现在世人面前。它声称每天能抓取1000万页以上的索引,所以有远超其他搜索引擎的新内容。HotBot页大量运用cookie保存用户的个人搜索喜好设置(HotBot曾是随后几年最受欢迎的搜索引擎之一,后被Lycos收购)。
8、Northernlight
Northernlight公司于1995年9月成立于马萨诸塞州剑桥,1997年8月Northernlight搜索引擎正式现身。作为曾拥有最大数据库的搜索引擎之一,它没有Stop Words,但出色的Current News、7100多个出版物组成的SpecialCollection、良好的高级搜索语法,以及第1个支持对搜索结果进行简单分析的自动分类(2002年1月16日,Northernlight公共搜索引擎关闭,随后被divine收购。但Nlresearch,选中“World Wide Web only”,仍可使用Northernlight搜索引擎)。
9、Sohu(http://www.sohu.com)
1996年中国出现了类似雅虎(Yahoo)的网站“搜狐”,在许多场合,也称Yahoo!之类的门户网站提供的信息查找功能为“搜索引擎”。但从技术讲,这样的门户中提供的搜索服务和前述搜索引擎是很不同的。这样的门户依赖的是人工整理的网站分类目录,一方面,用户可以直接沿着目录导航,定位到自己所关心的信息;另一面,用户也可以提交查询词,让系统将其直接引导到和该查询词最匹配的网站。可以说这种是网站级别的查询,而非网页级别的查询,也有人称这种服务为网站黄页服务。
10、Google(http://www.google.com)
1998年10月之前,Google只是Stanford大学的一个小项目BackRub。1995年博士生Larry Page开始学习搜索引擎设计,并于1997年9月15日注册了google.com的域名。1997年年底,在Sergey Brin、Scott Hassan和Alan Steremberg的共同参与下,BachRub开始提供Demo。1999年2月,Google完成了从Alpha版到Beta版的蜕变。Google公司则把1998年9月27日认做自己的生日。Google在Pagerank、动态摘要、网页快照、DailyRefresh、多文档格式支持、地图股票、词典寻人等集成搜索、多语言支持,以及用户界面等功能上革新,与Altavista一样,再一次永远改变了搜索引擎的定义。在2000年以前,Google虽然以搜索准确性备受赞誉,但因为数据库不如其他搜索引擎大,并缺乏高级搜索语法,所以使用价值不是很高,推广并不快。直到2000年数据库升级后,又借被Yahoo选为搜索引擎的东风,才一分冲天。
11、Fast(Alltheweb)
Fast(Alltheweb)公司创立于1997年,那是挪威科技大学(NTNU)学术研究的副产品。1999年5月,该公司发布了自己的搜索引擎AllTheWeb。Fast创立的目标是做世界上最大和最快的搜索引擎,几年来庶几近之。Fast(Alltheweb)的网页搜索可利用ODP自动分类,支持Flash和pdf搜索,支持多语言搜索,还提供新闻、图像、视频、MP3和FTP搜索,拥有极其强大的高级搜索功能。
12、Teoma
Teoma起源于1998年Rutgers大学的一个项目,Apostolos Gerasoulis教授带领华裔Tao Yang教授等人于新泽西Piscataway创立Teoma,2001年春初次登场。2001年9月被提问式搜索引擎Ask Jeeves收购,2002年4月再次发布。Teoma的数据库目前仍偏小,但有两个出彩的功能。既支持类似自动的Refine,同时提供专业链接目录的Resourecs。
13、Wisenut
Wisenut由韩裔Yeogirl Yun创立,2001年春季发布Beta版,2001年9月5日发布正式版,2002年4月被分类目录提供商LookSmart收购。Wisenut也有两个出彩的功能,既包含类似自动分类和相关检索词的WiseGuide,以及预览搜索结果的Sneak-a-Peek。
14、Gigablast
Gigablas由前Infoseek工程师Matt Wells创立,2002年3月展示了pre-beta版,2002年7月21日发布Beta版。Gigablast的数据库目前仍偏小,但也提供网页快照。一个特色功能是即时索引网页,你的网页刚提交,他就能搜索(这个spammers的肉包子功能暂已关闭)。
15、Openfind
Openfind创立于1998年1月,其技术源于台湾中正大学吴升教授所领导的GAIS实验室。它起先只做中文搜索引擎,曾经是最好的中文搜索引擎。在其鼎盛时期,同时为3大著名门户新浪、奇摩和雅虎提供中文搜索引擎,但2000年后市场逐渐被Baidu和Google瓜分。2002年6月,Openfind重新发布基于GAIS30Project的Openfind搜索引擎Beta版推出多元排序(PolyRankTM),宣布累计抓取网页35亿。并且开始进入英文搜索领域,此后技术升级明显加快。
16、北大天网
北大天网是国家“九五”重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果,由北大计算机系网络与分布式系统研究室开发,北京大学计算机系的项目组在陈葆钰教授的主持下于1997年10月在CERNET上推出了天网搜索1.0版本。该系统在几年里不断发展,目前已成为中国最大的公益性搜索引擎(http://e.pku.edu.cn)。2000年初成立天网搜索引擎新课题组,由国家973重点基础研究发展规划项目基金资助开发。它收录网页约6000万个,利用教育网优势有强大的FTP搜索功能。
17、Baidu
2000年1月,超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士)在北京中关村创立了百度(Baidu)公司。2001年8月,发布Baidu.com搜索引擎Beta版(此前Baidu只为其他门户我那个站搜狐、新浪和Tom等提供搜索引擎)。2001年10月22日,正式发布Baidu搜索引擎。Baidu虽然只提供中文搜索,但目前收录中文网页9000万个,可能是最大的中文数据库。Baidu搜索引擎的其他特色包括百度快照,百度预览/预览全部网页、相关搜索词、错别字纠正提示、新闻搜索、Flash搜索,以及信息快递搜索等。2002年3月,闪电计划(Blitzen Project)开始后,其技术升级明显加快。
- 相关文章:
《走进搜索引擎》相见恨晚 (2010-5-13 20:34:35)
4月19号到4月29号 (2010-5-13 17:10:33)
百度站长俱乐部4月13号到18号问题集锦 (2010-4-19 13:16:18)
推荐一个学习seo 的网站 (2010-3-21 13:20:14)
SEO发展史——(网络黎明前的SEO) (2010-3-6 15:41:49)
杰夫·贾维斯说“人人需要搜索优化” (2010-2-4 21:56:46)
看淡阿里巴巴 (2010-1-24 10:28:21)
三言两语话百度被黑 (2010-1-12 20:5:57)
对SEO的七点小看法 (2010-1-4 21:9:50)
快乐营销 (2009-12-29 22:5:55)
- 2.朱朱
- http://jujiju
- ????????????
- 2010-11-16 13:01:03 回复该留言 删除留言
- 1.朱朱
- http://jujiju
- 好炯
- 2010-11-16 13:00:14 回复该留言 删除留言
发表评论
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。





