全文搜索的两种方法

用全扫描进行全文搜索

从头到尾扫描作为检索对象的文档,以此来搜索要检索的字符串

由于Unix的字符串检索命令“grep”也是以同样的方式进行搜索的,所以有时也将这种方法称为“grep型搜索”。

全扫描匹配字符的一些高效算法:KMP算法、BM算法。

使用场景

  • 只适用于处理少量或暂时性的文档。

缺点:

  • 文档数越多检索时间就越长

优点:

  • 准确

利用索引进行全文搜索

需要事先为文档建立索引,然后利用索引来搜索要检索的字符串。

虽然索引分为很多种,每种的结构都不同,但是以Google和Yahoo!为代表的大多数搜索引擎采用的都是名为倒排索引的索引结构。

缺点:

  • 事先建立索引需要花费时间

优点:

  • 即使文档的数量增加,检索速度也不会大幅下降
文档更新时间: 2020-04-09 11:15   作者:admin