在R中将数字添加到字母数字字符串的有效方法

vyu0f0g1 于 2023-11-14 发布在其他

关注(0)|答案(3)|浏览(129)

我有一个data.frame，id由字母数字字符序列组成（例如，id = c(A001, A002, B013)）。我正在寻找stringr或stirngi下的简单函数，可以轻松地对这些字符串进行数学运算（id + 1应该返回c(A002, A003, B014)）。
我做了一个自定义函数，但是我有一种感觉，必须有一个更好的/更有效的/在包内的方式来实现这一点。

str_add_n <- function(df, string, n, width=3){

  string <- enquo(string)

  ## split the string using pattern
df <-  df %>%
    separate(!!string,
             into = c("text", "num"), 
             sep = "(?<=[A-Za-z])(?=[0-9])",
             remove=FALSE
    ) %>%
    mutate(num = as.numeric(num),
           num = num + n,
           num = stringr::str_pad(as.character(num),
                                  width = width,
                                  side = "left",
                                  pad = 0 
                                  )
           ) %>%
    unite(next_string, text:num, sep = "")

return(df)  
}

字符串
让我们做一个玩具df

df <- data.frame(id = c("A001", "A002", "B013"))
str_add_n(df, id, 1)
    id next_string
1 A001        A002
2 A002        A003
3 B013        B014

型
同样，这工作，我想知道是否有一个更好的方法来做到这一点，所有的调整欢迎！

更新

根据建议的答案，我运行了一些基准测试，似乎两者都非常接近，我倾向于str_add_n_2（我改变了名称，以便能够运行两者，并采取了x<-as.character(x)的建议）

microbenchmark::microbenchmark(question = str_add_n(df, id, 1),
 answer = df %>% mutate_at(vars(id), funs(str_add_n_2(., 1))),
 string_add = df %>% mutate_at(vars(id), funs(string_add(as.character(.)))))

型
其产生

Unit: milliseconds
       expr      min       lq     mean   median       uq
   question 4.312094 4.448391 4.695276 4.570860 4.755748
     answer 2.932146 3.017874 3.191262 3.117627 3.240688
 string_add 3.388442 3.466466 3.699363 3.534416 3.682762
      max neval cld
 10.29253   100   c
  8.24967   100 a  
  9.05441   100  b

3条答案

按热度按时间

mfpqipee1#

这里有一个方法与gsubfn

id <- c("A001", "A002", "B013")

library(gsubfn)
gsubfn("([0-9]+)", function(x) sprintf("%03.0f", as.numeric(x) + 1), id)
#[1] "A002" "A003" "B014"

字符串
你可以把它变成一个函数

string_add <- function(string, add = 1, width = 3) {
  gsubfn::gsubfn("([0-9]+)", function(x) sprintf(paste0("%0", width, ".0f"), as.numeric(x) + add), string)
}

string_add(id, add = 10, width = 5)
#"A00011" "A00012" "B00023"

型

赞(0）回复(0）举报 2023-11-14

ebdffaop2#

我建议基于字符串的 vector 来定义函数更容易，而不是硬编码它来查找框架中的列;对于后者，您总是可以使用类似mutate_at(vars(id,...), funs(str_add_n))的东西。

str_add_n <- function(x, n = 1L) {
  gr <- gregexpr("\\d+", x)
  reg <- regmatches(x, gr)
  widths <- nchar(reg)
  regmatches(x, gr) <- sprintf(paste0("%0", widths, "d"), as.integer(reg) + n)
  x
}

vec <- c("A001", "A002", "B013")
str_add_n(vec)
# [1] "A002" "A003" "B014"

字符串
如果在框架中：

df <- data.frame(id = c("A001", "A002", "B013"), x = 1:3,
                 stringsAsFactors = FALSE)
library(dplyr)
df %>%
  mutate_at(vars(id), funs(str_add_n(., 3)))
#     id x
# 1 A004 1
# 2 A005 2
# 3 B016 3

型
警告：这需要真正的character，而不是factor.一种可能的防御策略可能是在函数定义中添加x <- as.character(x)。

更新 *：mutate_at已被取代，across的首选用途是：

df %>% mutate(across(c(id), ~ str_add_n(., 3)))

型
或更直接

df %>% mutate(id = str_add_n(id, 3))

型

赞(0）回复(0）举报 2023-11-14

gjmwrych3#

下面是str_replace的一个变体，它来自tidyverse的一部分stringr包：

string_add <- function(string, add = 1, width = 3) {
  stringr::str_replace(
    string, 
    "([:digit:]+)$", 
    ~ sprintf(paste0("%0", width, ".0f"), as.numeric(.x) + add)
  )
}

df %>%
  mutate(next_string = string_add(id))

字符串
或者直接在mutate语句中不带函数：

df %>%
  mutate(
    next_string = id %>% str_replace(
      "([:digit:]+)$", 
      ~ sprintf("%03.0f", as.numeric(.x) + 1)
    )
  )

型

赞(0）回复(0）举报 2023-11-14

我来回答

在R中将数字添加到字母数字字符串的有效方法

更新

3条答案

相关问题

热门标签

最新问答