我正在尝试创建一个情绪分析工具,在三天的时间里分析关于曼联足球俱乐部的推文,并确定人们对这些推文的看法是积极的还是消极的。我目前正在使用本指南作为指导(java是我的编码语言)
http://cavajohn.blogspot.co.uk/2013/05/how-to-sentiment-analysis-of-tweets.html
我正在使用apacheflume将我的tweets下载到apachehadoop中,然后打算使用apachehive来查询tweets。我也可以使用apacheoozie来有效地划分tweet。
在我上面发布的链接中,提到我需要一个训练数据集来训练我将创建的分类器来分析tweets。提供的示例分类器有大约5000条tweet。因为我是为uni的一个暑期项目做这个的,我觉得我应该创建自己的数据集。
我应该使用多少tweet来使这个分类器有效?有推荐的号码吗?例如,如果我手动分析一百条推文,或者五百条推文,或者一千条推文,会有效吗?
2条答案
按热度按时间kx5bkwkv1#
数据集都是不同的,它们的内容常常随着时间的推移而变化(不可预测)。有时你会发现,100条带注解的tweet足以达到非常好的性能,因为语言使用是统一的。有时候,数万条微博是不够的。就在你认为你的分类器很好的时候,两天过去了,人们谈论的内容和谈论方式都发生了变化。同样的分类器现在也没用了。在不断变化的数据流中,有大量关于主动学习和内容分析的研究。这里和这里有一些论文开始你的研究。
ps如果可能,使用现成的数据集。从个人经验来看,数据注解是非常困难的。微博阅读起来非常枯燥,当你盯着它看了一个小时后,你会犯很多错误,而且会感到厌烦。
ffvjumwh2#
没有一个精确的数字来训练分类器。你可以有一个大的数据集,其中所有的数据都具有相同的属性,这样你的分类器就可以记住一个模式,或者,你也可以有一个没有那么大的数据集和好的示例,这样你的分类器就会有更好的结果。
您可以使用post中提供的示例数据集来训练分类器,并使用交叉验证来获得最佳分类器。
在你得到了最好的分类器之后,你可以将你的分类器与文章中提供的分类器进行比较,然后选择更好的分类器。