hadoop mapreduce输入格式,用于非常长的单行输入文件

2izufjch  于 2021-07-15  发布在  Hadoop
关注(0)|答案(0)|浏览(347)

我有一些非常大的.sql文件。它们的大小约为100gb或更大。我只需要分析它的数据。这些数据是单行的(insert-into),并且有大量的记录。数据示例如下:

  1. -- MySQL dump 10.14 Distrib 5.5.64-MariaDB, for Linux (x86_64)
  2. --
  3. -- ------------------------------------------------------
  4. -- Server version 5.6.10
  5. /*!40101 SET @OLD_CHARACTER_SET_CLIENT=@@CHARACTER_SET_CLIENT */;
  6. CREATE TABLE `users` (
  7. `id` bigint(20) unsigned NOT NULL,
  8. ...
  9. ...
  10. INSERT INTO `users` VALUES (23770,'han','rrish','Ean','soup7@lahoo.com','bounced',2,'400f0d811b851298bde4ac33d2f','male','wmen',3,'1990-06-21',1422,39017700,-94310640,'64015','US',1,'48df9339926.51312096',NULL,'2008-02-26 03:56:41','201-11-01 21:29:57','2019-09-24 00:29:07',NULL,'2019-09-24 00:29:07',0,178,7,2,4,14,3,1,0,1,6,NULL,9223036786810880,0,8,5129,1,3,1,NULL,NULL ...

现在我必须使用mapreduce拆分每个数据记录并处理进一步的统计数据。在apachehadoop(3)自定义作业中应该使用哪种输入格式?我有一个小规模的集群,在这里我必须处理这种类型的数据。
有没有更好的解决办法?我愿意使用hadoop流媒体与python或hadoopjava开发。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题