我从Kaggle获得了Titanic火车数据集,我正在尝试将其导入到pandas数据框中。以下是数据集中的一些记录:
PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
- 2,1,1,“Cumings,Mrs. John布拉德利(佛罗伦萨Briggs Thayer)",female,38,1,0,PC17599,71.2833,C85,C
- 3,1,3,“Heikkinen,Miss. Laina”,女,26,0,0,STON/O2. 3101282,7.925,,S
我想将其导入到pandas dataframe中,这样Name字段值中的逗号(包含在双引号下)就不会被视为分隔符,并且该列不会在该逗号处拆分。例如-对于上面示例中的第二条记录,Name字段具有值-“Heikkinen,Miss. Laina”将被视为单个值,并且不会在 Heikkinen 和 Miss. Laina 之间的逗号处拆分
1条答案
按热度按时间oxcyiej71#
来自pandas
read_csv
documentation::quotechar:str(length 1),可选
用于表示引用项的开始和结束的字符。引用项可以包含分隔符,但它将被忽略。
引用:int或csv.QUOTE_* 示例,默认为0
控制每个csv.QUOTE_* 常量的字段引用行为。使用QUOTE_MINIMAL(0)、QUOTE_ALL(1)、QUOTE_NONUMERIC(2)或QUOTE_NONE(3)之一。
双引号:布尔值,默认值True
当指定了quotechar且引号不是QUOTE_NONE时,指示是否将字段内的两个连续quotechar元素解释为单个quotechar元素。
所以我建议在read_csv的调用中指定quotechar。