我遇到了以下问题。我的数据集每行都有一个不同的病人,我有变量“医院”和“外科医生”,它们告诉我这些病人是在哪家医院由哪家外科医生做手术的。
每个外科医生只在一家医院工作。有20家医院,每家医院都有3到10名外科医生。(总共约100名外科医生)问题是,在我的数据中,所有外科医生都被编号为1到10。因此,A医院有1名外科医生,B医院有1名外科医生。然而,这些是不同的外科医生。
我想创建一个名为“surgeon_unique”的新变量,它为每个唯一的外科医生(基于医院 * 外科医生)提供唯一的整数(从0到100)。
有人能告诉我怎么做吗?我在网上找不到答案。非常感谢!
我希望有比case_when更好的东西,因为我认为这意味着我必须编写100行代码(对于医院+外科医生的每个组合,一行新代码)
1条答案
按热度按时间vlf7wbxs1#
在基R中,你可以使用
paste0
作为as.factor
来创建一个唯一的外科医生列,它是一个因子-在R中,因子后面“隐藏”着数字。如果你想让它们被赋予一个数字,你可以把它 Package 在as.numeric
中:字符串
或
dplyr::mutate
型
两个输出:
型