hadoop—存储大量小尺寸文本文件(通常以千字节为单位)并执行分析的好方法

wwwo4jvm  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(358)

我有大量的文本文件(原始文本),其中包含来自各种收集来源的数据,如syslog、崩溃解码、路由器/交换机的配置数据等。。。作为单独的文件。我必须存储这样的文件,并对它们进行一些分析。这些文件的大小很小(通常以kb为单位,最大为10mb),但数量很大。如果我必须使用hadoop,我认为这没有意义,因为hdfs中的块大小默认为64mb。所以我应该去mongodb或者其他nosql商店吗?请建议。示例文件(这只是一种类型的文件,还有许多其他类型)看起来是这样的:(我要分析的许多类型中的一个是发生了多少线程id为1的崩溃。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
坠毁pid:1956835686 ( Package /bin/nvgen)time:mon dec 9 07:41:18 2013
thread:1 received signal:11 - 西格夫。分段错误。sender:kernel pid:1信号特定信息:信号代码1-segv\ UMap器。地址未Map。在pc 0x0上访问了badaddr 0x0。核心转储文件name:dumper_harddisk:/dumper/nvgen.sparse.node0\u rsp0\u cpu0.ppc.z
注册信息
r0 r1 r2 r3 r0 00000000 e7fff6d0 00b338440000000个
r4 r5 r6 r7 r4 e7fff6d8 00000038 e7fff6d8 00000018
r8 r9 r10 r11 r8 00000000 00000000 00000000
r12 r13 r14 r15 r12 24000042 00b33844 e7fffa60 0000000 4
r16 r17 r18 r19 r16 e7fffa74 e7fffa88 e7fffb4c 00000000
r20 r21 r22 r23 r20 00aac26c 00000000000000007
r24 r25 r26 r27 r24 0ff880c4 00000000 e7ffffb1 00000000
r28 r29 r30 r31 r28 48020778 e7fffb7c e7fffb4c 00000000
cnt lr msr pc r32 00000000 00000000 4000d932 00000000
xer r36 44000044亿元人民币

qcbq4gxm

qcbq4gxm1#

您可能希望将文本文件写入一个序列文件。这些文件基于键/值结构,可以扩展。在一个严肃的it架构中,我建议在这种情况下使用队列机制(例如jms)。

相关问题