在没有表头的文件上使用read.csv.sql时，如何定义列名？

wko9yo5t 于 2022-12-06 发布在其他

关注(0)|答案(1)|浏览(105)

我经常使用read.csv函数读取大型CSV文件。这些文件没有标题，因此通过使用col.names参数，我可以正确定义导入后创建的 Dataframe 中的变量名称。
今天，我第一次不得不使用sqlf包中的read.csv.sql。要导入的文件非常大，我只需要根据该文件中的一个条件确定某些行。根据online documentation，过滤器必须在SELECT语句的WHERE子句中定义。（在其他列中），它是user_account，我只想导入满足条件user_account = 'Foo'的行。

df <- read.csv.sql(
    "my_big_data_file.csv",
    sql = "select * from file where user_account = 'Foo'",
    header = FALSE,
    colClasses = c(... Here I define column types ...),
    sep = "|",
    eol = "\n"
)

现在的问题是，与read.csv不同，read.csv.sql中显然没有col.names参数。由于我的文件没有头，我不知道如何引用列名。我收到一个错误消息，因为我在上面代码中sql参数的WHERE子句中写入了user_account。R抱怨没有这样的变量。
那么，我如何在没有标题的CSV文件中使用read.csv.sql引用列名，同时在过滤器中引用这些列名呢？这可能吗？
先谢了

csv

来源：https://stackoverflow.com/questions/74212373/how-to-define-column-names-while-using-read-csv-sql-on-a-file-without-header

1条答案

按热度按时间

luaexgnf1#

最后，我在read.csv.sql的文档中找到了答案。我们必须使用fields.types来代替colClasses，方法是直接指定数据类型，因为它们是在SQLite中定义的，而不是在R中定义的。

字段.类型：一个列表，其名称是列名称，其内容是列的SQLite类型（而不是R类名）。指定这些类型可以提高速度。除非速度非常重要，否则通常不使用此参数。

SQLite数据类型可用here
因此，我相应地修改了我的程序：

df_tmp <- read.csv.sql(
    file = input_file_path,
    sql = "
       select
           *
       from
           file
       where trim(lower(user_account)) = 'foo'",
    header = FALSE,
    sep = "|",
    eol = "\n",
    `field.types` = list(
        col1 = c("TEXT"),
        col2 = c("TEXT"),
        user_account = c("TEXT"),
        col4 = c("REAL"),
        col5 = c("REAL")
    ),
    dbname = tempfile(),
    drv = "SQLite"
)

然而，最后我不得不通过as.numeric显式地转换一个已经转换为字符的变量。但是程序通过一个明确的警告消息指出了这一点。所以最后，这个解决方案为我完成了这项工作。
我希望这可能会帮助那些遇到同样问题的人。

赞(0）回复(0）举报 2022-12-06

我来回答

在没有表头的文件上使用read.csv.sql时，如何定义列名？

1条答案

相关问题

热门标签

最新问答