数据异常与数据清洗研究综述

(整期优先)网络出版时间:2023-12-27
/ 2

数据异常与数据清洗研究综述

宗宝良1 叶新财2 胡政攀2

1.重庆交通大学 信息科学与工程学院,重庆 400074  2.重庆交通大学 土木工程学院,重庆,400074

摘要:随着经济和基础设施建设的不断发展,也随着时代的不断进步,因此在信息时代数据即是资源。数据可靠无误才能准确地反映现实状况,有效地支持组织决策。因此,数据清洗方法研究意义重大。本文阐述了数据异常存在那些种类,并阐述了响应的处理方法,总结了数据清洗的应用前景。

关键字:数据清洗;数据异常;缺失值

1


1引言

在信息时代数据即是资源。数据可靠无误才能准确地反映现实状况,有效地支持组织决策。但是,现实世界中脏数据无处不在,数据不正确或者不一致会严重影响数据分析的结果,从而产生消极作用。在美国,脏数据导致14%的医疗支出被浪费[1],导致美国公司一年共损失6000亿美元[2]。因此,数据清洗在数据分析与管理的过程中扮演着越来越重要的角色。数据清洗旨在识别和纠正数据中的噪声,将噪声对数据分析结果的影响降至最低。

2数据清洗与异常

数据清洗[3]是指对原始数据进行清理、整理、筛选和转换,以确保数据的质量和可用性。数据清洗的步骤通常包括去除重复数据、处理缺失值、纠正错误数据、统一数据格式和单位、处理异常值等。通过对数据异常[4]的归类调研,基于之前的调研结果,提出了四大类数据异常即数据噪声,数据漂移,数据跳点和数据缺失。

3数据噪声

数据噪声[5]通常指的是在数据中存在的不希望的干扰或误差。数据噪声可能来自多种因素,包括传感器的不准确性、数据采集过程中的干扰、人为错误等。处理噪声的方法有很多,常用的噪声过滤法有平滑处理、基于模型的方法、频域滤波、异常值检测、机器学习模型、信号处理方法等。

1)平滑处理:移动平均:计算每个数据点及其周围邻近点的平均值,以减少噪声对整体趋势的影响。中值滤波:用数据点周围邻近点的中值来代替当前数据点,适用于处理脉冲噪声。

2)基于模型的方法:使用回归、平滑或其他模型来拟合数据,并排除异常值的影响。时间序列模型,如ARIMA、Prophet等,可以帮助捕捉数据中的趋势和季节性。

3)频域滤波:使用傅立叶变换将数据转换到频域,然后滤除高频噪声成分。

4)异常值检测:使用统计方法(如Z-score、箱线图)、聚类方法(如DBSCAN)或基于距离的方法(如k近邻)来检测和处理异常值。

5)信号处理方法:如小波变换等信号处理技术,可用于去除数据中的噪声成分。

当然选择哪种方法取决于数据的特点、噪声类型以及分析的具体目的。在实践中,通常需要尝试多种方法,并根据实际效果选择最适合的处理方式。

4数据缺失

数据缺失是指数据集中的某些观测值或变量值没有被收集或记录的情况。在数据分析中,数据缺失是一个常见的问题,可能会影响到分析的准确性和可靠性。数据缺失可以是随机的,即缺失的概率与其他变量无关;也可以是非随机的,即缺失的概率与其他变量相关。数据缺失可能会导致分析结果的偏差,因此在进行数据分析时需要考虑如何处理数据缺失的问题。

常用的数据缺失处理方法包括:

1)删除缺失值:如果缺失值比例较小,可以直接删除含有缺失值的观测样本或特

征。但是,如果缺失值比例较大,删除可能会造成样本数量的大量减少,从而影响模型的准确性。

2)插补法:通过一定的数学统计方法,对缺失值进行填充。常见的插补方法包括均值插补、中位数插补、最近邻插补、回归插补等。

3)使用专家知识填充:对于特定领域的数据,可以依靠专家知识对缺失值进行填充。这种方法需要专业知识和经验的支持,但可能会引入主观因素。

4)利用模型预测:使用其他特征值作为自变量,建立模型来预测缺失值。常见的方法包括线性回归、决策树、随机森林等。

在数据分析过程中,对于存在数据缺失的情况,需要根据具体的数据集和分析目的选择合适的数据缺失方法进行处理,合理处理数据缺失问题可以保证数据分析结果的准确性和可靠性。

5数据漂移

数据漂移是指在机器学习和统计学中的一种现象。具体来说,当模型在训练时所使用的数据分布与在应用阶段模型所面对的数据分布不一致时,就会发生数据漂移。数据漂移可能由多种原因引起,其中一些常见的包括:环境变化:在模型训练和模型应用的环境中可能存在差异,导致输入数据的分布发生变化;传感器差异:在涉及传感器的任务中,不同时间或地点使用的传感器可能有差异,导致输入数据的特征分布变化。

处理数据漂移的方法主要有以下几种:

1)深度学习:当只有部分新数据有标签时,可以使用深度学习方法。深度学习方法可以利用有标签的数据和无标签的数据来重新训练模型。

2)领域自适应:当数据漂移是由于不同的数据分布引起的时,可以使用领域自适应方法。领域自适应方法可以通过将源领域和目标领域的数据进行映射,使其具有相似的分布,从而减少数据漂移的影响。

3)集成学习:当数据漂移导致模型的性能下降时,可以使用集成学习方法。集成学习方法可以将多个模型的预测结果进行组合,从而提高整体性能。

4)在线学习:当数据流不断变化时,可以使用在线学习方法。在线学习方法可以逐步更新模型,以适应新的数据。

6数据跳点

数据跳点是指在连续的数据序列中存在着某些数据点与周围数据点之间存在较大的差异或突变的现象。这种现象可能是由于测量设备的误差、数据采集的不稳定性、异常事件的发生等原因引起的。

处理数据跳点的方法如下:

1)平滑法:使用平滑方法平滑数据跳点,常用的平滑方法包括移动平均、加权移动平均、指数平滑等。平滑法的优点是可以消除数据的短期波动,但可能会导致数据的延迟和平滑过度。

2)回归法:使用回归方法拟合数据跳点前后的数据,常用的回归方法包括线性回归、多项式回归、非线性回归等。回归法的优点是可以更准确地估计数据跳点前后的趋势,但可能会受到异常值的影响。

3)分段法:将数据跳点前后的数据分为多个片段,对每个片段进行独立处理。可以使用不同的插值、平滑或回归方法处理每个片段,然后将处理后的片段拼接起来。分段法的优点是可以针对不同的数据特点进行灵活处理,但可能会引入拼接处的不连续性。

需要根据具体问题和数据特点选择适合的方法,并结合领域知识和经验进行调整和优化。

7结语

随着大数据时代的到来,数据量的急剧增加,数据质量的问题也变得愈发突出。数据清洗作为数据预处理的重要环节,可以解决数据中的噪声、缺失、异常值等问题,提高数据的准确性和可信度,为后续的数据分析和挖掘工作提供可靠的基础。在商业领域,数据清洗可以帮助企业识别和纠正数据中的错误和不一致性,提高数据的质量,从而更好地支持决策和战略规划。在科学研究领域,数据清洗可以帮助科研人员排除数据中的噪声和异常值,确保研究结果的可信度和可重复性。在金融领域,数据清洗可以帮助银行和金融机构识别和纠正数据中的错误和异常,提高风险管理和决策的准确性。在医疗领域,数据清洗可以帮助医疗机构清理和整理海量的医疗数据,提高医疗服务的质量和效率。

参考文献(References):

[1]李静锋,赵艳玲.浅谈自动站数据异常处理方法[J].气象研究与应用, 2006(s1).

[2]董明晓,郑康平.一种点云数据噪声点的随机滤波处理方法[J].中国图象图形学报:

A辑, 2004, 9(2):4.

[3]金勇进.调查中的数据缺失及处理(Ⅰ)——缺失数据及其影响[J].数理统计与管理, 2001, 20(1):4.

[4]邹鹏,于渤,王宪全.面向数据漂移的代价敏感客户细分[J].哈尔滨工业大学学报, 2011.

[5]吴学文,高金耀,包更生.走航测线数据跳点的剔除[J].海洋测绘, 2007, 27(4):4.

1