我现在正试着和马霍特一起玩。我买了这本书。整个过程是理解和简单的测试数据集,我已经成功了。
现在我有一个分类问题,我想解决。
找到了目标变量,我现在称之为-x。我们数据库中的现有数据已被分类为-1、0和+1。
我们定义了几个预测变量,通过sql查询选择这些变量。
这些是产品的属性:语言,国家,类别(商店),标题,描述。
现在我希望它们直接写入sequencefile,为此我编写了一个小助手类,每次处理sql resultset的新行时,它都会附加到sequence文件中:
public void appendToFile(String classification, String databaseID, String language, String country, String vertical, String title, String description) {
int count = 0;
Text key = new Text();
Text value = new Text();
key.set("/" + classification + "/" + databaseID);
//??value.set(message);
try {
this.writer.append(key, value);
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
如果我只有标题,我可以简单地将其存储在值中-但是如何在特定的键中存储多个值,如country、lang等?
谢谢你的帮助!
1条答案
按热度按时间oug3syen1#
你不应该把结构存储在一个seq文件中,只要把所有用空格隔开的文本都转储,
它只是一个放置所有内容进行术语计算的地方,当使用像naivebayes这样的东西时,它不关心结构。
当你有分类时,在你的数据库中查找结构。