我注意到大多数博客都在讨论如何设置hdfs审计日志。但是是否有一个来源来确定每个操作/cmd代表什么?
我在hadoop howtoconfigure wiki中找到了下表:
但我不知道的是,在所有的行动中,他们代表什么。
e、 我试图通过读/写操作对操作进行分类,但似乎“open”是读/写操作的通用命令,其余操作更像ddl和访问控制操作。
我知道在不同的hadoop发行版中,比如cloudera或hdp,它们有自己的方式来告诉审计日志,但是默认操作代表什么呢?e、 g.create-may表示创建文件/mkdirs,may表示配置单元表/hive分区的mkdir。
最重要的是,有没有办法区分读/写操作?
1条答案
按热度按时间huwehgph1#
如果您想到最典型的hadoop作业(pig、hive、mr、sqoop、spark),您很少覆盖数据,因此create意味着写,open意味着读。如果要覆盖数据,实际上是删除它,然后重新创建它。
要区分哪个服务执行了该操作,还需要查看其他源(配置单元审核日志、rm审核日志)或从用户和目录推断服务(/usr/hive/warehouse/*可能是配置单元查询)。
覆盖/附加引用:
如何在pig中强制存储(覆盖)hdfs?
sqoop append命令在hadoop中如何工作
配置单元审核日志:
https://cwiki.apache.org/confluence/display/hive/gettingstarted#gettingstarted-审核日志