从Pandas数据框中的推文中提取主题标签列表

jogvjijk  于 2023-03-28  发布在  其他
关注(0)|答案(1)|浏览(109)

我有一个类似于dataframe的 Dataframe
我试图从每条tweet中提取一个hashtags列表,并将其Map到DataFrame中一个名为“hashtags”的新列。然而,到目前为止,我尝试的代码只是返回tweet中hashtags之后的所有内容,而不是一个hashtags列表。

def extract_hashtags(df):
    df['hashtags'] = [x if x.startswith('#') else 'NaN' for x in df.Tweets]
    return df
knsnq2tg

knsnq2tg1#

您可以使用're'模块查找以#开始的单词的所有示例,如下所示。

import re

def extract_hashtags(df):
    df['hashtags'] = [re.findall(r'#\w+', x) if re.findall(r'#\w+', x) else np.nan for x in df.Tweets]
    return df

相关问题