我想知道如何为以下条件创建一个伪变量:列'lemmatised'包含至少两个来自'innovation_words'的单词。Innovation_words是我自己定义的列表:
innovation_words = ['community', 'local', 'charity', 'event', 'partner',
'volunteering', 'plastic', 'surplusfood']
lemmatized列如下所示(如果需要,我很好更改类型或格式):
data to use for condition
因此,如果任何观察结果包括例如 local 和 plastic,我希望有一个虚拟变量:'innovation' = 1。希望有人能帮我这个忙。一些代码我已经试过了:
conditions = [df_posts['lemmatised'].isin(innovation_words),
df_posts['lemmatised'].isin(innovation_words)]
dummy = [1,0]
df_posts['innovation'] = np.select(conditions, dummy)
2条答案
按热度按时间n53p2ov01#
也许你可以试试这个:
cczfrluj2#
从此代码中使用
只需重命名变量