hadoop mapreduce输入格式,用于非常长的单行输入文件

2izufjch  于 2021-07-15  发布在  Hadoop
关注(0)|答案(0)|浏览(316)

我有一些非常大的.sql文件。它们的大小约为100gb或更大。我只需要分析它的数据。这些数据是单行的(insert-into),并且有大量的记录。数据示例如下:

-- MySQL dump 10.14  Distrib 5.5.64-MariaDB, for Linux (x86_64)
--
-- ------------------------------------------------------
-- Server version       5.6.10

/*!40101 SET @OLD_CHARACTER_SET_CLIENT=@@CHARACTER_SET_CLIENT */;
CREATE TABLE `users` (
  `id` bigint(20) unsigned NOT NULL,
...
...
INSERT INTO `users` VALUES (23770,'han','rrish','Ean','soup7@lahoo.com','bounced',2,'400f0d811b851298bde4ac33d2f','male','wmen',3,'1990-06-21',1422,39017700,-94310640,'64015','US',1,'48df9339926.51312096',NULL,'2008-02-26 03:56:41','201-11-01 21:29:57','2019-09-24 00:29:07',NULL,'2019-09-24 00:29:07',0,178,7,2,4,14,3,1,0,1,6,NULL,9223036786810880,0,8,5129,1,3,1,NULL,NULL ...

现在我必须使用mapreduce拆分每个数据记录并处理进一步的统计数据。在apachehadoop(3)自定义作业中应该使用哪种输入格式?我有一个小规模的集群,在这里我必须处理这种类型的数据。
有没有更好的解决办法?我愿意使用hadoop流媒体与python或hadoopjava开发。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题