pandas 向read_csv()传递一个分隔符值,这样,其中一列将忽略该值

kdfy810k  于 2023-04-28  发布在  其他
关注(0)|答案(1)|浏览(172)

我从Kaggle获得了Titanic火车数据集,我正在尝试将其导入到pandas数据框中。以下是数据集中的一些记录:

PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked

  • 2,1,1,“Cumings,Mrs. John布拉德利(佛罗伦萨Briggs Thayer)",female,38,1,0,PC17599,71.2833,C85,C
  • 3,1,3,“Heikkinen,Miss. Laina”,女,26,0,0,STON/O2. 3101282,7.925,,S

我想将其导入到pandas dataframe中,这样Name字段值中的逗号(包含在双引号下)就不会被视为分隔符,并且该列不会在该逗号处拆分。例如-对于上面示例中的第二条记录,Name字段具有值-“Heikkinen,Miss. Laina”将被视为单个值,并且不会在 HeikkinenMiss. Laina 之间的逗号处拆分

oxcyiej7

oxcyiej71#

来自pandas read_csv documentation::
quotechar:str(length 1),可选
用于表示引用项的开始和结束的字符。引用项可以包含分隔符,但它将被忽略。
引用:int或csv.QUOTE_* 示例,默认为0
控制每个csv.QUOTE_* 常量的字段引用行为。使用QUOTE_MINIMAL(0)、QUOTE_ALL(1)、QUOTE_NONUMERIC(2)或QUOTE_NONE(3)之一。
双引号:布尔值,默认值True
当指定了quotechar且引号不是QUOTE_NONE时,指示是否将字段内的两个连续quotechar元素解释为单个quotechar元素。
所以我建议在read_csv的调用中指定quotechar。

相关问题