在hdfs中选择的最佳方法?

syqv5f0l  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(361)

我有一个hadoop环境,有1个主节点和4个节点,在那里我用sqoop保存mysql应用程序的所有数据
我需要通过应用程序的web访问保存在hadoop中的数据,换句话说:如果用户在6个月之前创建了一个日期记录,我希望应用程序在hadoop数据中进行选择。
它们是关系数据mysql。我不需要做任何伟大的分析。
这可行吗?
最好的方法是什么?
你用什么工具?
在这种情况下,在hdfs中发送数据不可行吗?
先谢谢你

zy1mlcev

zy1mlcev1#

据我所知,您正在使用sqoop将数据从mysql导入hdfs。
现在您需要在hdfs中对这些数据执行一些查询。
你可以用Hive做这个。您可以对数据执行hql(类似于sql)。
您可以使用sqoop将数据直接从mysql导入到hive。现在您在配置单元中有了类似于mysql的表。您可以对其执行任何查询。
示例命令:

sqoop import \
--connect 'jdbc:mysql://myhost:3306/classicmodels' \
--driver com.mysql.jdbc.Driver \
--username root \
--password root \
--table abc \
--target-dir /user/dev/db/sqoop/temp_81323/ \
--hive-import \
--hive-table hive_abc \
--null-string '\\N' \
--null-non-string '\\N' \
--verbose

查看sqoop文档了解更多详细信息。

相关问题