我很难理解autoloader如何在adls gen 2中处理多个文件夹,以及我应该如何传递data_source
路径。
我有下面的文件夹strcutre,其中数据是加载多个表在evey 15分钟在我的存储帐户。根目录看起来像这样:
在每个文件夹中,我有每个表的实际数据
的
data_source = f"abfss://name@prodstorage.dfs.core.windows.net/{what should be a as root directory parameter}/{table_name}/*.csv"
source_format = "csv"
# Configure Auto Loader to ingest csv data to a Delta table
df = (
spark.readStream
.option("delimiter", ",")
.option("quote", '"')
.option("mode", "permissive")
.option("lineSep", "\r\n")
.option("multiLine", "true")
.format("cloudFiles")
.option("cloudFiles.format", source_format)
.option("cloudFiles.schemaLocation", checkpoint_directory)
.option("header", "false")
.option("escape", '"')
.schema(schema)
.load(data_source)
字符串
问题是我应该如何将数据源路径传递给将与自动加载器一起工作的代码?
1条答案
按热度按时间ldioqlga1#
Autoloader可以一次处理一个文件,它存储最后处理的文件,它可以做结构流。
Autoloader提供了一个称为云文件的结构化流源,以增量和有效地处理新数据。当它们到达云存储时。
字符串
上面的代码将允许您忽略传入 Dataframe 的文件夹级别分区。
递归文件查找是使用如果你有任何类型的分区到 Dataframe 在这种情况下,你可以把它打开或关闭,以利用它。
通过使用云原生组件过滤掉新到达的文件,实现数据加载过程的自动化。
将数据源路径传递给将使用Autoloader的代码
型
例如,我必须文件夹SampleFiles,它由2个Emp表和Dept表组成。
的数据
输出写入target_data_loc