首页 > 几亿条海量数据,比如新浪微博,N亿条微博如何存储?

几亿条海量数据,比如新浪微博,N亿条微博如何存储?

几亿条海量数据,比如新浪微博,N亿条微博如何存储?


数据存储的时候做了拆分,数据库是集群形式的。创建数据的时候,首先通过发号器生成一个ID,然后根据一致性hash算法来得到存储的节点位置。大体上思路是这个样子的。


这种大数据的存储架构思考,通常如下

1、数据样式究竟如何?就要考虑如何存储数据,例如:微博的数据,应该分几种,a.通常的微博消息体,字符串类型;b.关注方式的朋友关系链的存储;c.帐号属性信息存储等等。存储方式不同:消息体一般以NoSQL在线存储和Hadoop、MongoDB的文本消息信息存储。 关系链:分布式NoSQL方案 ;帐号属性: mysql PostGresSQL在线存储。
2、数据时效性不同而导致的数据存储方案不同。 比如: 关系链肯定是内存化存储的,消息体也有最近1周的在线存储。这样,就可以保证数据的时效性、快速访问。 而离线数据的存储,可以hdfs的方式来存储。至于分布式的HASH的问题,一般在在线时效存储中要考虑,平行扩容、容灾恢复问题。而离线HDFS则由于本身的分布式系统特性,不用太考虑这些分布式一致性Hash问题。

【热门文章】
【热门文章】