我很好奇当我们使用druid从本地tsv文件中获取数据时,tsv文件应该是什么样子。
应该是这样的:
请注意,这只是为了测试:
快速启动/sample\u data.tsv文件:
name lastname电子邮件时间bob jonesbobj@gmail.com 1468839687比利琼斯billyj@gmail.com 1468839769
这部分是我的尺寸:name lastname email
这部分是我的真实数据:鲍勃·琼斯bobj@gmail.com 1468839687比利琼斯billyj@gmail.com 1468839769
{
"type" : "index_hadoop",
"spec" : {
"ioConfig" : {
"type" : "hadoop",
"inputSpec" : {
"type" : "static",
"paths" : "quickstart/sample_data.tsv"
}
},
"dataSchema" : {
"dataSource" : "local",
"granularitySpec" : {
"type" : "uniform",
"segmentGranularity" : "hour",
"queryGranularity" : "none",
"intervals" : ["2016-07-18/2016-07-18"]
},
"parser" : {
"type" : "string",
"parseSpec" : {
"format" : "tsv",
"dimensionsSpec" : {
"dimensions" : [
"name",
"lastname",
"email"
]
},
"timestampSpec" : {
"format" : "auto",
"column" : "time"
}
}
},
"metricsSpec" : [
{
"name" : "count",
"type" : "count"
},
{
"name" : "added",
"type" : "longSum",
"fieldName" : "deleted"
}
]
}
}
}
我也有一些关于我的规范文件的问题,因为我在文件上找不到答案。如果有人能帮我回答,我将不胜感激:)! 1)
我注意到在示例规范中,他们在最上面添加了一行“type”:“index\uhadoop”。如果我从快速启动目录中的本地计算机摄取tsv文件,我将为该类型输入什么?另外,我在哪里可以看到我应该在文档中为这个“type”键输入的不同值?我没有得到解释。 2)
同样,ioconfig中有一个类型变量:“type”:“hadoop”。如果我从快速启动目录中的本地计算机摄取tsv文件,我将为该类型输入什么? 3)
对于timestampspec,我的tsv文件中的时间是以gmt为单位的。有什么方法可以用它作为格式吗。既然我读到你应该把它转换成utc,那么在把数据上传给霸王的过程中有没有办法转换成utc呢?或者我必须将所有这些gmt时间格式更改为utc,类似于:“time”:“2015-09-12t00:46:58.771z”。
1条答案
按热度按时间bakd9h0s1#
druid支持两种方式获取批处理数据
hadoop索引任务
索引任务
您所指的规范是一个hadoop索引任务,因此“type”是“index\uhadoop”,ioconfig类型也是“hadoop”。
以下是可从本地文件读取的索引任务的示例规范:
{ "type": "index", "spec": { "dataSchema": { "dataSource": "wikipedia", "parser": { "type": "string", "parseSpec": { "format": "json", "timestampSpec": { "column": "timestamp", "format": "auto" }, "dimensionsSpec": { "dimensions": ["page", "language"] } } }, "metricsSpec": [{ "type": "count", "name": "count" }, { "type": "doubleSum", "name": "added", "fieldName": "added" }], "granularitySpec": { "type": "uniform", "segmentGranularity": "DAY", "queryGranularity": "NONE", "intervals": ["2013-08-31/2013-09-01"] } }, "ioConfig": { "type": "index", "firehose": { "type": "local", "baseDir": "examples/indexing/", "filter": "wikipedia_data.json" } } } }