分类导航

为什么选择图形数据库，为什么选择Neo4j？

发布时间：2016年12月21日作者：文章转自网络，版权归原作者所有，反馈可立刻删除 (该文来自笔记，点击查看原文)

最近在抓取一些社交网站的数据，抓下来的数据用MySql存储。问我为什么用MySql，那自然是入门简单，并且我当时只熟悉MySql。可是，随着数据量越来越大，有一个问题始终困扰着我，那就是社交关系的存储。

就以新浪微博举例，一个大V少则十几万，多则几千万的粉丝，这些关注关系要怎么存呢？在MySql中，一条关注关系（大V id，大V的一个粉丝 id）存为一条数据，那么当用户数量上来的时候，关注关系轻松破亿，破十亿，甚至上百亿，并且为了保证每条数据的唯一性，还需要设置联合索引，MySql就有些力不从心了。那么有人要说了：分表呀。嗯，没错，分表的确可以在插入端和读取端提升一些速度。比如我们可以根据id哈希到100张表中。查询一个用户有哪些粉丝是快了，但是查询一个用户关注了哪些人时仍然需要遍历全表。好，这时候我们还可以以（id，其关注的一个用户的id）再构造100张表，于是两种查询都快了。然而，后面那100张表是冗余数据，看着就不爽...并且生成一张子图也不方便（需要多次写SQL查表）。

于是，在搜索更好的方案时无意间发现了图形数据库，查阅一番资料后感觉确实是个不错的选择，毕竟业界的一些大佬，如twitter，Adobe等也在用。

那么，什么是图形数据库呢？在这里我贴上较为官方的定义：a database that uses graph structures for semantic queries with nodes, edges and properties to represent and store data – independent of the way the data is stored internally. It’s really the model and the implemented algorithms that matter.注意，这里只是说数据模型是图结构的，没有说数据的存储也一定要是图结构的。其数据模型如下图

分类导航

为什么选择图形数据库，为什么选择Neo4j？

延伸阅读

我想了解如何学习