用apply函数替换在R中的dfs列表上迭代地运行向后逐步回归的for循环，以减少计算时间

mxg2im7a 于 2022-12-24 发布在其他

关注(0)|答案(1)|浏览(95)

R脚本和包含多个csv文件格式数据集的文件夹的简化版本都可以在我的GitHub Repository中找到，该Repository位于Link中。
在名为“LASSO代码”的脚本中，将一个文件夹加载到R中，文件夹中装满了N个csv文件格式的数据集，并将它们分配到一个名为“datasets”的列表中，然后运行以下代码来拟合N个LASSO回归，每个数据集对应一个：

set.seed(11)     # to ensure replicability
LASSO_fits <- lapply(dfs, function(i) 
               enet(x = as.matrix(select(i, starts_with("X"))), 
                    y = i$Y, lambda = 0, normalize = FALSE))

现在，我想为向后消除逐步回归重复相同的过程，我们将保持简单，只需使用stats库中的step（）函数）使用另一个apply函数，而不必使用循环。问题是，我知道如何做到这一点，唯一的方法是在运行之前初始化或准备它，首先建立：

set.seed(100)      # for reproducibility
full_fits <- vector("list", length = length(dfs))
Backward_Stepwise_fits <- vector("list", length = length(dfs))

然后才拟合所有的Backward_Stepwise_fits，但是我不知道如何把full_fits和Backward_Stepwise_fits放到同一个apply函数中，我能想到的唯一方法是使用一个for循环，把它们一个一个的堆在里面，但是那会是非常低效的计算，而我将运行这两个函数的数据集N的数量是260,000！
我写了一个for循环，它确实可以运行，但是在58，500个数据集上运行需要12个小时，这是无法接受的慢。

set.seed(100)      # for reproducibility
for(i in seq_along(dfs)) {
  full_fits[[i]] <- lm(formula = Y ~ ., data = dfs[[i]])
  Backward_Stepwise_fits[[i]] <- step(object = full_fits[[i]], 
                        scope = formula(full_fits[[i]]),
                        direction = 'backward', trace = 0) }

我已尝试执行以下操作，但在控制台中得到相应的错误消息：

> full_model_fits <- lapply(datasets, function(i)
+   lm(formula = Y ~ ., data = datasets))
Error in terms.formula(formula, data = data) : 
duplicated name 'X1' in data frame using '.'

r

来源：https://stackoverflow.com/questions/74904943/replacing-a-for-loop-which-iteratively-runs-backward-stepwise-regressions-on-a-l

1条答案

按热度按时间

rta7y2nd1#

有没有想过把整个事情并行化？
首先，您可以更简洁地定义代码。

system.time(
  res <- lapply(lst, \(X) {
    full <- lm(Y ~ ., X)
    back <- step(full, scope=formula(full), dir='back', trace=FALSE)
  })
)
#  user  system elapsed 
# 3.895   0.008   3.897 

system.time(
  res1 <- lapply(lst, \(X) step(lm(Y ~ ., X), dir='back', trace=FALSE))
)
#  user  system elapsed 
# 3.820   0.016   3.833 

stopifnot(all.equal(res, res1))

结果相等，但没有时间差异。
现在，使用parallel::parLapply。

library(parallel)

CL <- makeCluster(detectCores() - 1L)
clusterExport(CL, c('lst'))

system.time(
  res2 <- parLapply(CL, lst, \(X) step(lm(Y ~ ., X), dir='back', trace=FALSE))
)
#  user  system elapsed 
# 0.075   0.032   0.861 

stopCluster(CL)

stopifnot(all.equal(res, res2))

在这台机器上快了4.5倍。

- 您的错误**duplicated name 'X1' in data frame using '.'意味着在您的某些数据集中有两个名为"X1"的列。以下是查找它们的方法：

names(lst$dat6)[9] <- 'X1'  ## producing duplicated column X1 for demo 

sapply(lst, \(x) anyDuplicated(names(x)))
# dat1  dat2  dat3  dat4  dat5  dat6  dat7  dat8  dat9 dat10 dat11 
# 0     0     0     0     0     9     0     0     0     0     0 
# ...

结果表明，在数据集dat6中，第9列是第一个重复的，其它列都是干净的。

数据：*

n <- 50
lst <- replicate(n, {dat <- data.frame(matrix(rnorm(500*30), 500, 30))
cbind(Y=rowSums(as.matrix(dat)%*%rnorm(ncol(dat))) + rnorm(nrow(dat)), dat)}, simplify=FALSE) |> 
  setNames(paste0('dat', seq_len(n)))

赞(0）回复(0）举报 2022-12-24

我来回答

用apply函数替换在R中的dfs列表上迭代地运行向后逐步回归的for循环，以减少计算时间

1条答案

相关问题

热门标签

最新问答