创建情绪分析工具

mklgxw1f 于 2021-06-03 发布在 Hadoop

关注(0)|答案(2)|浏览(427)

我正在尝试创建一个情绪分析工具，在三天的时间里分析关于曼联足球俱乐部的推文，并确定人们对这些推文的看法是积极的还是消极的。我目前正在使用本指南作为指导（java是我的编码语言）
http://cavajohn.blogspot.co.uk/2013/05/how-to-sentiment-analysis-of-tweets.html
我正在使用apacheflume将我的tweets下载到apachehadoop中，然后打算使用apachehive来查询tweets。我也可以使用apacheoozie来有效地划分tweet。
在我上面发布的链接中，提到我需要一个训练数据集来训练我将创建的分类器来分析tweets。提供的示例分类器有大约5000条tweet。因为我是为uni的一个暑期项目做这个的，我觉得我应该创建自己的数据集。
我应该使用多少tweet来使这个分类器有效？有推荐的号码吗？例如，如果我手动分析一百条推文，或者五百条推文，或者一千条推文，会有效吗？

Java hadoop twitter4j sentiment-analysis

来源：https://stackoverflow.com/questions/17833489/creating-a-sentiment-analysis-tool

2条答案

按热度按时间

kx5bkwkv1#

数据集都是不同的，它们的内容常常随着时间的推移而变化（不可预测）。有时你会发现，100条带注解的tweet足以达到非常好的性能，因为语言使用是统一的。有时候，数万条微博是不够的。就在你认为你的分类器很好的时候，两天过去了，人们谈论的内容和谈论方式都发生了变化。同样的分类器现在也没用了。在不断变化的数据流中，有大量关于主动学习和内容分析的研究。这里和这里有一些论文开始你的研究。
ps如果可能，使用现成的数据集。从个人经验来看，数据注解是非常困难的。微博阅读起来非常枯燥，当你盯着它看了一个小时后，你会犯很多错误，而且会感到厌烦。

赞(0）回复(0）举报 2021-06-04

ffvjumwh2#

没有一个精确的数字来训练分类器。你可以有一个大的数据集，其中所有的数据都具有相同的属性，这样你的分类器就可以记住一个模式，或者，你也可以有一个没有那么大的数据集和好的示例，这样你的分类器就会有更好的结果。
您可以使用post中提供的示例数据集来训练分类器，并使用交叉验证来获得最佳分类器。
在你得到了最好的分类器之后，你可以将你的分类器与文章中提供的分类器进行比较，然后选择更好的分类器。

赞(0）回复(0）举报 2021-06-04

我来回答

创建情绪分析工具

2条答案

相关问题

热门标签

最新问答