我目前正在分析Instagram上的帖子,这些帖子的标签通常包含不止一个单词(例如#pictureoftheday)。然而,在R包tidytext中对它们进行标记只会产生一个标记。相反,我希望有多个标记,如"the""day"的"picture"。不幸的是,我还没有找到一个包能够做到这一点。你知道有哪个R包允许这种方法吗?先谢了!
tidytext
h6my8fg21#
据我所知,你不可能在不知道它们是单词的情况下就把它们分开,如果标签是用分隔符分开的话,那就很容易了;如果没有它,它就会变得非常复杂。你需要一个与语言相关的词典。您可能需要单独处理数据。创建自己的基于字典的方法通常是一个很好的解决方案,但它非常耗时。另见:定量文本分析最基本的形式是单词计数技术和基于词典的方法,这篇文章将涵盖这两个主题,以及情感分析,这是一种基于词典的文本分析。
c90pui9n2#
试试这个Python存储库:ekphrasis
from ekphrasis.classes.segmenter import Segmenter seg = Segmenter(corpus="mycorpus") print(seg.segment("smallandinsignificant"))
输出:
> small and insignificant
2条答案
按热度按时间h6my8fg21#
据我所知,你不可能在不知道它们是单词的情况下就把它们分开,如果标签是用分隔符分开的话,那就很容易了;如果没有它,它就会变得非常复杂。你需要一个与语言相关的词典。
您可能需要单独处理数据。创建自己的基于字典的方法通常是一个很好的解决方案,但它非常耗时。
另见:
定量文本分析最基本的形式是单词计数技术和基于词典的方法,这篇文章将涵盖这两个主题,以及情感分析,这是一种基于词典的文本分析。
c90pui9n2#
试试这个Python存储库:ekphrasis
输出: