首页/提示词库/处理脏数据与异常值并输出标准化加工脚本

处理脏数据与异常值并输出标准化加工脚本

未分类任务0 次复制2026年4月25日
# 任务 编写生产级数据清洗与异常值处理Python脚本。 # 背景 - 受众:数据工程师/分析师 - 场景:ETL管道开发与数据预处理 - 目的:实现自动化、可配置、高质量的数据清洗流程 # 要求 ## 内容要求 - 诊断先行:执行前必须输出各字段缺失率、零值率、异常边界值报告。 - 策略配置:实现`fill_na_smart`函数,通过字典配置填充策略(如中位数、常量),禁止无逻辑全量`dropna()`。 - 动态阈值:异常值检测必须基于IQR或3σ方法动态计算,禁止硬编码魔法数字。 - 模块封装:去重、填充、异常过滤必须封装为独立函数,禁止使用`iterrows()`循环。 ## 格式要求 - 代码结构:包含参数配置区、核心函数库、主执行流(含日志打印)。 - 输出形态:数据诊断摘要 + Python代码 + 清洗流水日志。 ## 约束条件 - 必须:包含类型转换代码,打印清洗前后数据量变化。 - 禁止:硬编码阈值、面条代码、引发数据倾斜的操作。

来自批量导入