这可能更像是一个理论问题,而不是一个编码问题。
我正在尝试编写一个闪亮的应用程序,它将循环通过 Dataframe 的连续数字列,并对这些列执行测试。该应用程序允许用户上传自己的 Dataframe ,所以我不知道它会是什么样子的提前。我知道我可以用dplyr包按以下方式只选择数字列
library(dplyr)
data <- data %>%
select(where(is.numeric))
字符串
这是可行的,但也保留了离散的数值列。我想不出一个只选择连续列的好方法。
我曾经考虑过尝试做一些事情,比如只选择模式重复次数小于 Dataframe 长度的特定比例的列。或者,可能像唯一值的数量需要大于模式重复的次数。但这两种方法似乎都不能很好地推广。他们也不会摆脱id列。
我很感激任何想法,谢谢。
4条答案
按热度按时间3npbholx1#
有一个库
schoolmath
,其中包含is.decimal
和is.whole
函数:字符串
所以你可以用
apply
处理你的 Dataframe :型
返回的TRUE的索引值将是具有十进制值的列。
wb1gzix02#
如何定义
is_continuous
:字符串
在此之后,您可以执行以下操作:
型
wpx232ag3#
你考虑过把离散变量转化为因子吗?下面是一个例子,可能有你正在寻找的解决方案:
字符串
我编辑了我的could,只使用
select
函数。然而,我假设你的离散变量有有限的范围,比如cyl
。如果你能分享一段你的数据,让我们看看它们到底是什么,也许会更好。y53ybaqx4#
您也可以尝试:
字符串
识别具有7个或更多水平的所有变量
型