我正在通过hadoop传输非结构化事件数据,并希望将其放到bigquery中。我有一个包含大多数字段的模式,但是有一些字段我想忽略或不知道。bigquery有一个名为ignoreunknownvalues的配置字段,但我不知道如何从hadoop连接器打开它。这可能吗?
jmp7cifd1#
不幸的是,hadoop的bigquery连接器目前不支持这一点;我们一定会在下一个版本中添加更灵活的配置定制,并直接支持已知的配置设置,如 ignoreUnknownValues . 同时,如果您准备从源代码构建,您应该能够在bigqueryrecordwriter.java的第317行之后添加:
ignoreUnknownValues
loadConfig.setIgnoreUnknownValues(true);
那你就干脆 mvn -Phadoop1 package 或者 mvn -Phadoop2 package 并将自定义的bigquery连接器jar文件上传到gcs中的某个位置,最后修改 BIGQUERY_CONNECTOR_JAR 在你的 bdutil_env.sh 在重新部署之前指向自定义文件。
mvn -Phadoop1 package
mvn -Phadoop2 package
BIGQUERY_CONNECTOR_JAR
bdutil_env.sh
1条答案
按热度按时间jmp7cifd1#
不幸的是,hadoop的bigquery连接器目前不支持这一点;我们一定会在下一个版本中添加更灵活的配置定制,并直接支持已知的配置设置,如
ignoreUnknownValues
. 同时,如果您准备从源代码构建,您应该能够在bigqueryrecordwriter.java的第317行之后添加:那你就干脆
mvn -Phadoop1 package
或者mvn -Phadoop2 package
并将自定义的bigquery连接器jar文件上传到gcs中的某个位置,最后修改BIGQUERY_CONNECTOR_JAR
在你的bdutil_env.sh
在重新部署之前指向自定义文件。