我有一个clickhouse表,其中一个字段包含文本描述(约300个单词)。
例如评论:
Rev_id Place_id Stars Category Text
1 12 3 Food Nice food but a bad dirty place.
2 31 4 Sport Not bad, they have everything.
3 55 1 Bar Poor place,bad audience.
我想做一些词数分析,比如一般词频统计(每个词出现的次数)或者每个类别的前k个词。
在示例中:
word count
bad 3
place 2
... 有没有一种方法可以只在clickhouse中完成而不涉及编程语言?
2条答案
按热度按时间hvvq6cgz1#
v09wglhw2#
如果它适用于你的情况,我会考虑使用alphatokens作为一个更有效的。
使用topk的示例:
ps:在处理之前降低所有字符串/标记可能是有意义的