数量的数据需要搜索引擎去索引,索引后还是海量的数据,要能精准搜索到自己需要的信息,需要遵循一定的技巧和方法。
1 什么是搜索引擎
搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。百度和谷歌等是搜索引擎的代表。
2 Web信息资源的特性
海量规模;
分散无序;
动态更新,不稳定;
种类或形式多种多样;
非结构化或半结构化;
主义冗余、质量缺乏控制;
需求和使用方式个性化;
3 搜索引擎的发展
早期的搜索引擎:早期以AltaVista、Excite为代表,用于自动采集网页的“机器人”程序相对较弱,一般只对网页的标题、URL等信息进行自动索引,对返回的检索结果有时也不排序;
全文搜索引擎的普及:对网页的全文进行自动采集与索引,支持全文检索;
4 搜索引擎的分类
4.1 按内容或数据收录的范围分
4.1.1 综合类搜索引擎:如google、百度;
4.1.2 专业类搜索引擎
也叫垂直搜索引擎,是针对特定的行业、领域、主题的专门搜索引擎。由于只面对一个方面,垂直搜索提供的结果更加专业、深入、具体和有序。如mp3搜索,结果全是歌曲,有歌词,能方便地试听。除mp3搜索外,常用的有图片搜索、视频搜索、新闻搜索。如果想找图片、视频、了解新闻,那么直接用相应的垂直搜索无疑更高效。如,Business
4.2 按信息的组织方式或检索方式分:
4.2.1 索引式搜索引擎:如google、百度;
4.2.2 目录式搜索引擎:Yahoo Galaxy go.com goguides
4.2.3 元搜索引擎:万纬 MetaCrawler Mamma Search Dogpile ixquick; fefoo limmz
4.2.4 终端元搜索引擎软件:WebFerret 飓风
4.2.5 集合式搜索引擎:该搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择,如HotBot在2002年底推出的搜索引擎。
4.2.6 门户搜索引擎:AOLSearch、MSNSearch等虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。
5 计算机检索技术
5.1 布尔逻辑检索:严格意义上的布尔检索法是指利用布尔逻辑运算符连接各个检索词,然后由计算机进行相应逻辑运算,以找出所需信息的方法。它使用面最广、使用频率最高。布尔逻辑运算符的作用是把检索词连接起来,构成一个逻辑检索式。
5.2 截词检索(truncation searching):用截断的词的一个局部进行检索,并认为凡满足这个词局部中的所有字符的资料,都为命中的资料;截词是指用符号代替变化的部分。如“system?”、”comput?”、”wom?n”、”?ology”;
5.3 字段限定检索(limit searching):限定在数据库记录中的一个或几个字段范围内查找检索词;
5.4 词位置检索:指限定检索词之间的位置关系;(proximate searching)
5.5 聚类检索:首先要把将全部资料按相似度进行聚类归档,检索时直接在类目内匹配;
5.6 相关反馈与提问式扩展技术:指系统对检索词进行适当的修正后再进行检索;
5.7 可视化检索技术:对检索词构造、检索过程、检索结果都可考虑可视化;
6 搜索相关名词
6.1 网页快照:是搜索引擎对该链接有效时在其服务器做的一个备份;
6.2 高级搜索:可以让我们不输入搜索引擎的语法就能使用搜索引擎支持的很多功能,以缩小搜索范围、提供更精确的搜索结果。
6.3 搜索结果页:用户在输入关键词,单击搜索按钮后,搜索引擎进入的页面,显示出根据关键词做出的搜索结果列表。每一项内容一般包括统计行、网页标题、网页摘要、网址、网页快照等内容;
6.4 搜索语法:利用语法可以进行更复杂的条件搜索,可大大提高搜索的效率和精度;需要注意的是,所有搜索引擎可能有一些共同的语法规则,也有自己的规则,另外,随着某一搜索引擎的发展与完善,自身的语法规则可能也会有不断的更新和完善;
6.5搜索引擎默认搜索类别,“网页”:其实是搜索综合的内容,包括文本、图片、视频、音频等,网页是网络基本的单元,一切内容都可纳入其中;“网页”搜索内容全面、丰富、包罗万象,但往往也需要更多的时间去筛选需要的内容;与之相对应的是垂直搜索(也叫分类搜索,对应于搜索引擎上的其它选项卡),由于只面对一个方面,垂直搜索提供的结果更加专业、深入、具体和有序。
7 Google的服务器规模
谷歌的神秘面纱包括:一、软件 二、硬件 三、集群平等处理机制。
谷歌软件的3个核心要素:谷歌文件系统、谷歌的分布式存储系统和处理庞大数据的程序设计模式。
硬件却是一般的服务器、处理器、硬盘和内存等。
服务器的集群能在半秒之内回应700至1000台服务器的处理搜索请求。
Google作为全球排名第一的搜索引擎,面向全球提供多语种的搜索服务,由其服务器规模,可以想像全球的数据规模的大小。
7.1 谷歌每天需要存储惊人的数据量,需要上述的硬件增加和软件匹配;
7.2 谷歌在全球多个一线国家和地区都有数据中心,只是规模有所区别而已;
7.3 谷歌到底拥有多少台服务器?谷歌一直以来是秘而不宣,估计总共应该是千万台级别的服务器规模
7.4 需要足够的电力,其产生的热量也是惊人的,所以要需要先进的冷却技术。
-End-