处理脏数据与异常值并输出标准化加工脚本
提示词内容
# 任务
编写生产级数据清洗与异常值处理Python脚本。
# 背景
- 受众:数据工程师/分析师
- 场景:ETL管道开发与数据预处理
- 目的:实现自动化、可配置、高质量的数据清洗流程
# 要求
## 内容要求
- 诊断先行:执行前必须输出各字段缺失率、零值率、异常边界值报告。
- 策略配置:实现`fill_na_smart`函数,通过字典配置填充策略(如中位数、常量),禁止无逻辑全量`dropna()`。
- 动态阈值:异常值检测必须基于IQR或3σ方法动态计算,禁止硬编码魔法数字。
- 模块封装:去重、填充、异常过滤必须封装为独立函数,禁止使用`iterrows()`循环。
## 格式要求
- 代码结构:包含参数配置区、核心函数库、主执行流(含日志打印)。
- 输出形态:数据诊断摘要 + Python代码 + 清洗流水日志。
## 约束条件
- 必须:包含类型转换代码,打印清洗前后数据量变化。
- 禁止:硬编码阈值、面条代码、引发数据倾斜的操作。
描述
来自批量导入