hadoop和stata

nzkunb0c 于 2021-06-03 发布在 Hadoop

关注(0)|答案(2)|浏览(258)

有人有使用stata和hadoop的经验吗？Stata13现在有了一个java插件api，所以我认为让他们玩得好应该很简单。
我特别感兴趣的是能够解析博客数据，使之成为一种适合统计分析的形式。
这个问题最近在statalist上出现了，但是没有人回答，所以我想我会在这里尝试，在这里，观众更有可能对这项技术有经验。

hadoop Hive apache-pig stata

来源：https://stackoverflow.com/questions/19165689/hadoop-and-stata

2条答案

按热度按时间

xvw2m8pv1#

迪米特里，
我想用麋鹿堆做这样的事情会更容易(http://www.elastic.co). logstash（中间层）有几个基于apache lucene引擎构建的解析器/标记器/分析程序，用于清理和格式化日志数据，并可以将结果数据推送到elasticsearch中，elasticsearch公开了一个http api，您可以很容易地 curl 以获得结果（例如。，使用insheetjson并将httpget请求作为url传递，它应该导入stata而不会有太多问题）。
我一直在努力拼凑一个程序，使用jackson json库从stata内部构建出更健壮的json i/o功能，我绝对不介意尝试与其他人合作来完成它。
希望这有帮助，比利

赞(0）回复(0）举报 2021-06-03

zpgglvta2#

我要（不？）试试这个。从javaapi的外观来看，调用者似乎将stata本质上视为一个数据存储。如果是这样的话，那么我可以想象stata将作为一个数据库融入hadoop世界，并通过自己的inputformat和outputformat进行访问。在您的特定情况下，我可以想象您将编写一个stataoutputformat，您的reducer将使用它来编写解析的数据。唯一的缺点似乎是你引用的评论，stata应用程序往往是i/o绑定的，所以我不知道使用hadoop真的能帮到你
你必须写下所有的数据，而且
无论您是否使用hadoop，该写操作都将是i/o绑定的。

赞(0）回复(0）举报 2021-06-03

我来回答

hadoop和stata

2条答案

相关问题

热门标签

最新问答