我有一个包含Twitter流S的id的zip文件。我如何加载这些id,然后通过使用Java和Lucene下载数据集的原始tweet来完成数据集?为了减少数据集的空间和复杂性,需要以统一的方式下载至少5%的tweet,检查tweet是否为英语,并以压缩形式存储数据。
wj8zmpe11#
你可以使用Twitter4j库来获取ID的tweet。所以,在文件中流传输提供的ID,然后通过Twitter4j下载这些ID的tweet。当然,如果你只需要5%,你会得到一个tweet子集
1条答案
按热度按时间wj8zmpe11#
你可以使用Twitter4j库来获取ID的tweet。所以,在文件中流传输提供的ID,然后通过Twitter4j下载这些ID的tweet。当然,如果你只需要5%,你会得到一个tweet子集