如果我知道要存储什么样的数据(考虑到压缩),有没有办法估计行大小?
我看到的是
bson|u id |字符串(最多200个字符)| int32 | int32 | bool | bool | datetime | datetime | datetime | int32
我试图找到最好的数据库解决方案,约2万亿记录像上面的一个,加上约x20像
bson|u id | bson|u id
欢迎提出任何其他建议
如果我知道要存储什么样的数据(考虑到压缩),有没有办法估计行大小?
我看到的是
bson|u id |字符串(最多200个字符)| int32 | int32 | bool | bool | datetime | datetime | datetime | int32
我试图找到最好的数据库解决方案,约2万亿记录像上面的一个,加上约x20像
bson|u id | bson|u id
欢迎提出任何其他建议
1条答案
按热度按时间zbwhf8kr1#
很一般的答案。
据我所知,只有使用虚拟数据的测试才是衡量这种情况的可靠方法。”dummy在这里的意思是假的,但不是重复的,因为强烈的重复可能会破坏压缩估计。
例如,你可以把1米,2米,4米,8米,32米,128米等…记录和检查是否有任何线性依赖关系。如果它是线性的,你可以很容易地用一些偶然性推断出数十亿和万亿条记录的值。
在这种测试中,您还可以根据需要检查性能。例如,您可以增加hdfs的复制因子来提高读取性能。
最后你可以检查一下压缩的观点。
祝大数据好运!