我需要使用SQL Alchemy从Pandas导出一个 Dataframe 到Microsoft SQL Server。许多列是字符串,有缺失的值和一些很长的整数,例如999999999999999999999999999999。这些数字是某种外键,所以值本身没有任何意义,所以我可以将它们转换为字符串。
尝试导出到SQL时,这会导致SQL Alchemy中出现以下错误:
OverflowError: int too big to convert
我尝试用astype(str)
转换为字符串,但随后遇到了这样的问题:标识为nans的缺失值被转换为字符串'nan' -因此SQL不会将它们视为null,而是视为字符串'nan'。
**我找到的唯一解决方案是先转换为str,然后用numpy.nan
替换'nan'。有更好的方法吗?**这很麻烦,相对较慢,而且非常复杂:首先,我将所有内容转换为string,这个转换将null转换为string,然后我将它们转换为NaN,NaN只能是浮点型,最后得到一个混合类型的列。
还是我只能忍气吞声,接受Pandas在处理缺失值方面很糟糕的事实?
我有一个例子如下:
import numpy as np, pandas as pd, time
from sqlalchemy import create_engine, MetaData, Table, select
import sqlalchemy as sqlalchemy
start=time.time()
ServerName = "DESKTOP-MRX\SQLEXPRESS"
Database = 'MYDATABASE'
params = '?driver=SQL+Server+Native+Client+11.0'
engine = create_engine('mssql+pyodbc://' + ServerName + '/'+ Database + params, encoding ='latin1' )
conn=engine.connect()
df=pd.DataFrame()
df['mixed']=np.arange(0,9)
df.iloc[0,0]='test'
df['numb']=3.0
df['text']='my string'
df.iloc[0,2]=np.nan
df.iloc[1,2]=999999999999999999999999999999999
df['text']=df['text'].astype(str).replace('nan',np.nan)
df.to_sql('test_df_mixed_types', engine, schema='dbo', if_exists='replace')
2条答案
按热度按时间s5a0g9ez1#
使用
np.where
肯定比替换(即时间:
ztigrdn82#
若要将NaN保留为NaN并且仅将非NaN行转换为
str
,请使用布尔索引。或者使用
mask()
方法根据条件(值是否为非NaN)选择值,类似于np.where()
。但是,如果您希望将NaN转换为空字符串(可能是为了稍后对字符串进行操作),则使用
fillna()
。