此项目是自己学习搜索引擎过程中的一些心得,在使用go语言的时候,发现了悟空这个搜索引擎项目,结合此项目代码以及《信息检索导论》,自己对搜索引擎的原理是实现都有了一个初步的认识,然后结合工作中可能遇到的场景,做了一个简单的demo。写下这篇文章,可能比较啰嗦,希望帮助到需要的人。项目代码地址: https://github.com/LiuRoy/sakura
基础知识
一个简单例子
假如有四个文档,分别代表四部电影的名字:
The Shawshank Redemption
Forrest Gump
The Godfather
The Dark Knight
如果我们想根据这四个文档建立信息检索,即输入查找词就可以找到包含此词的所有电影,最直观的实现方式是建立一个矩阵,每一行代表一个词,每一列代表一个文档,取值1/0代表该此是否在该文档中。如下:

