我正在尝试使用PandasSchema验证我的DataFrame列。我在验证某些列时遇到了麻烦,例如:
1.ip_address-应包含以下格式的IP地址1.1.1.1,或者如果为任何其他值,则该值应为null,否则会引发错误。2. initial_date-格式yyyy-mm-dd h:m:s或mm-dd-yyyy h:m:s等。3.客户类型应为[“类型1”、“类型2”、“类型3”],否则会引发错误。4.客户满意=是/否或空白5.客户ID不应长于5个字符,例如-cus 01、cus 02 6.时间应为%:%:format或h:m:s format任何其他内容都会引发异常。
from pandas_schema import Column, Schema
def check_string(sr):
try:
str(sr)
except InvalidOperation:
return False
return True
def check_datetime(self,dec):
try:
datetime.datetime.strptime(dec, self.date_format)
return True
except:
return False
def check_int(num):
try:
int(num)
except ValueError:
return False
return True
string_validation=[CustomElementValidation(lambda x: check_string(x).str.len()>5 ,'Field Correct')]
int_validation = [CustomElementValidation(lambda i: check_int(i), 'is not integer')]
contain_validation = [CustomElementValidation(lambda y: check_string(y) not in['type1','type2','type3'], 'Filed is correct')]
date_time_validation=[CustomElementValidation(lambda dt: check_datetime(dt).strptime('%m/%d/%Y %H:%M %p'),'is not a date
time')]
null_validation = [CustomElementValidation(lambda d: d is not np.nan, 'this field cannot be null')]
schema = Schema([
Column('CompanyID', string_validation + null_validation),
Column('initialdate', date_time_validation),
Column('customertype', contain_validation),
Column('ip', string_validation),
Column('customersatisfied', string_validation)])
errors = schema.validate(combined_df)
errors_index_rows = [e.row for e in errors]
pd.DataFrame({'col':errors}).to_csv('errors.csv')
1条答案
按热度按时间vmjh9lq91#
我刚刚看了PandasSchema的文档,如果不是全部的话,大部分你都在寻找它的开箱即用功能。
作为解决问题的快速尝试,沿着方法应该有效: