有人有使用stata和hadoop的经验吗?Stata13现在有了一个java插件api,所以我认为让他们玩得好应该很简单。我特别感兴趣的是能够解析博客数据,使之成为一种适合统计分析的形式。这个问题最近在statalist上出现了,但是没有人回答,所以我想我会在这里尝试,在这里,观众更有可能对这项技术有经验。
xvw2m8pv1#
迪米特里,我想用麋鹿堆做这样的事情会更容易(http://www.elastic.co). logstash(中间层)有几个基于apache lucene引擎构建的解析器/标记器/分析程序,用于清理和格式化日志数据,并可以将结果数据推送到elasticsearch中,elasticsearch公开了一个http api,您可以很容易地 curl 以获得结果(例如。,使用insheetjson并将httpget请求作为url传递,它应该导入stata而不会有太多问题)。我一直在努力拼凑一个程序,使用jackson json库从stata内部构建出更健壮的json i/o功能,我绝对不介意尝试与其他人合作来完成它。希望这有帮助,比利
zpgglvta2#
我要(不?)试试这个。从javaapi的外观来看,调用者似乎将stata本质上视为一个数据存储。如果是这样的话,那么我可以想象stata将作为一个数据库融入hadoop世界,并通过自己的inputformat和outputformat进行访问。在您的特定情况下,我可以想象您将编写一个stataoutputformat,您的reducer将使用它来编写解析的数据。唯一的缺点似乎是你引用的评论,stata应用程序往往是i/o绑定的,所以我不知道使用hadoop真的能帮到你你必须写下所有的数据,而且无论您是否使用hadoop,该写操作都将是i/o绑定的。
2条答案
按热度按时间xvw2m8pv1#
迪米特里,
我想用麋鹿堆做这样的事情会更容易(http://www.elastic.co). logstash(中间层)有几个基于apache lucene引擎构建的解析器/标记器/分析程序,用于清理和格式化日志数据,并可以将结果数据推送到elasticsearch中,elasticsearch公开了一个http api,您可以很容易地 curl 以获得结果(例如。,使用insheetjson并将httpget请求作为url传递,它应该导入stata而不会有太多问题)。
我一直在努力拼凑一个程序,使用jackson json库从stata内部构建出更健壮的json i/o功能,我绝对不介意尝试与其他人合作来完成它。
希望这有帮助,比利
zpgglvta2#
我要(不?)试试这个。从javaapi的外观来看,调用者似乎将stata本质上视为一个数据存储。如果是这样的话,那么我可以想象stata将作为一个数据库融入hadoop世界,并通过自己的inputformat和outputformat进行访问。在您的特定情况下,我可以想象您将编写一个stataoutputformat,您的reducer将使用它来编写解析的数据。唯一的缺点似乎是你引用的评论,stata应用程序往往是i/o绑定的,所以我不知道使用hadoop真的能帮到你
你必须写下所有的数据,而且
无论您是否使用hadoop,该写操作都将是i/o绑定的。