我有一个场景,在hdfs中有一些avro文件集,我需要为hdfs中的avro数据文件生成avro模式文件(https://github.com/databricks/spark-avro/blob/master/src/main/scala/com/databricks/spark/avro/schemaconverters.scala).
除了将avro数据文件带到本地并执行hdfs put之外,还有其他方法吗。
欢迎任何建议。谢谢!
我有一个场景,在hdfs中有一些avro文件集,我需要为hdfs中的avro数据文件生成avro模式文件(https://github.com/databricks/spark-avro/blob/master/src/main/scala/com/databricks/spark/avro/schemaconverters.scala).
除了将avro数据文件带到本地并执行hdfs put之外,还有其他方法吗。
欢迎任何建议。谢谢!
1条答案
按热度按时间cetgtptt1#
每个avro文件都包含在它的avro模式中。您可以使用avrotools.jar(从maven下载)提取这个模式。您只能下载一个部分(假设所有其他文件都是用相同的模式编写的)并使用avro工具(java-jar~/workspace/avro-tools-1.7.7.jar getschema .avro)来提取它