数据预处理常用的处理步骤,包括找出异常值、处理缺失值、过滤不合适值、去掉重复行、北京汉邦高科数字技术股份有限公司,分箱、分组、排名、category转数值等,下面使用 pandas 解决这些最常见的预处理任务。
标准差法:异常值平均值上下1.96个标准差区间以外的值 分位数法:小于 1/4分位数减去 1/4和3/4分位数差的1.5倍,大于3/4减去 1/4和3/4分位数差的1.5倍,都为异常值
假如某门课最高分100,如果出现 -2, 120 这样的值,显然不合理,使用布尔类型的Series对象修改数值:
过滤某列重复值,使用 drop_duplicated 方法,第一个参数为列名,keep关键字等于last:最后一次出现此值行:
某列取值只可能为有限个枚举值,往往需要转为数值,使用get_dummies,或自己定义函数:

企业资料通过认证