创建情绪分析工具

mklgxw1f  于 2021-06-03  发布在  Hadoop
关注(0)|答案(2)|浏览(409)

我正在尝试创建一个情绪分析工具,在三天的时间里分析关于曼联足球俱乐部的推文,并确定人们对这些推文的看法是积极的还是消极的。我目前正在使用本指南作为指导(java是我的编码语言)
http://cavajohn.blogspot.co.uk/2013/05/how-to-sentiment-analysis-of-tweets.html
我正在使用apacheflume将我的tweets下载到apachehadoop中,然后打算使用apachehive来查询tweets。我也可以使用apacheoozie来有效地划分tweet。
在我上面发布的链接中,提到我需要一个训练数据集来训练我将创建的分类器来分析tweets。提供的示例分类器有大约5000条tweet。因为我是为uni的一个暑期项目做这个的,我觉得我应该创建自己的数据集。
我应该使用多少tweet来使这个分类器有效?有推荐的号码吗?例如,如果我手动分析一百条推文,或者五百条推文,或者一千条推文,会有效吗?

kx5bkwkv

kx5bkwkv1#

数据集都是不同的,它们的内容常常随着时间的推移而变化(不可预测)。有时你会发现,100条带注解的tweet足以达到非常好的性能,因为语言使用是统一的。有时候,数万条微博是不够的。就在你认为你的分类器很好的时候,两天过去了,人们谈论的内容和谈论方式都发生了变化。同样的分类器现在也没用了。在不断变化的数据流中,有大量关于主动学习和内容分析的研究。这里和这里有一些论文开始你的研究。
ps如果可能,使用现成的数据集。从个人经验来看,数据注解是非常困难的。微博阅读起来非常枯燥,当你盯着它看了一个小时后,你会犯很多错误,而且会感到厌烦。

ffvjumwh

ffvjumwh2#

没有一个精确的数字来训练分类器。你可以有一个大的数据集,其中所有的数据都具有相同的属性,这样你的分类器就可以记住一个模式,或者,你也可以有一个没有那么大的数据集和好的示例,这样你的分类器就会有更好的结果。
您可以使用post中提供的示例数据集来训练分类器,并使用交叉验证来获得最佳分类器。
在你得到了最好的分类器之后,你可以将你的分类器与文章中提供的分类器进行比较,然后选择更好的分类器。

相关问题