我有一个数据表,其中一列包含一组特定的基因,另一列包含另一组显著基因,两者都是字符变量,如何找到这些基因的重叠并打印到另一列?
示例:
a〈-c("苹果香蕉甜瓜梨"、"梨猕猴桃菠萝"、"鳄梨酸橙猕猴桃苹果"、"酸橙菠萝香蕉甜瓜")b〈-c("等等等等香蕉梨"、"等等梨等等等等猕猴桃"、"等等等等苹果"、"酸橙等等等等")df〈-data. frame(a,b)
我想返回的是c的df $new_column('香蕉梨','梨猕猴桃','苹果','酸橙')
我试过:
df $new_column〈-df $a [df $a % in % df $b],但我收到错误消息$<-.data.frame
(*tmp*
,新列,值=字符(0))中的错误:替换为0行,数据为4行
1条答案
按热度按时间qjp7pelc1#
这些字符串必须首先被分离成单词,然后我们可以对这些集合对使用intersect()。
以R为底数的话可能是这样的:
或者:
输入:
创建于2023年1月20日,使用reprex v2.0.2