我有一个数字数据集的格式 class, unigram count, bigram count, sentiment
. 我浏览了一些apachemahout文档,内容都是关于文本数据的。我知道我需要执行3个步骤来分类:转换为序列文件,矢量化序列文件,传递给训练朴素贝叶斯分类器。但是我很难理解在mahout中分类文本数据集和分类数字数据集的区别。在我的情况下,我需要做什么不同的事情?如果有任何帮助,我将不胜感激。
我有一个数字数据集的格式 class, unigram count, bigram count, sentiment
. 我浏览了一些apachemahout文档,内容都是关于文本数据的。我知道我需要执行3个步骤来分类:转换为序列文件,矢量化序列文件,传递给训练朴素贝叶斯分类器。但是我很难理解在mahout中分类文本数据集和分类数字数据集的区别。在我的情况下,我需要做什么不同的事情?如果有任何帮助,我将不胜感激。
1条答案
按热度按时间jmo0nnb31#
您可能知道,mahout不能使用文本数据来训练模型。如果你从一个数字数据集开始,分类会更容易,因为mahout处理的向量是数字数据向量。
我在文本数据集上使用mahout,我知道在这种情况下,我必须使用dictionnary将文本数据转换为数字数据。一些算法比其他算法处理得更好(例如,naivebayes非常喜欢文本数据)。
因此,在你的例子中,尝试使用其他分类器,如随机forrest或在线logistic回归,以获得更有效的结果。根据我的经验,使用random forrest,你可以定义你拥有的特征类型(在你的例子中,你所有的特征都是数字的),这样分类就很容易了。如果你想坚持朴素贝叶斯,我相信它仍然可以分类你的数字数据集,但我从来没有用过,所以我不能给更多的帮助。