1陆军装甲兵学院研究生大队100036
2.军事科学院军事科学信息研究中心100142
摘要:随着高新技术软件在现代军事中的重要性日益凸显,如何准确定价高价值军品软件成果成为军工领域面临的重要挑战。传统的定价方法往往无法充分考虑高价值、高技术特性,导致定价不合理或无法反映研发成果价值。借助XGBoost回归算法在定价中的应用,结合数据分析和模型训练,对高价值军品软件成果进行精准定价具有重要意义。本研究旨在探讨如何利用XGBoost回归算法优化军品软件成果定价,提高高价值军品软件成果定价能力。本文旨在探讨基于XGBoost回归的高价值军品软件成果定价研究,通过分析高价值军品软件成果定价的影响因素,结合XGBoost回归算法在定价中的应用,通过数据预处理、模型训练与结果定价分析等过程,探索利用机器学习的方法对高价值军品软件成果定价。
关键词:XGBoost回归;高价值军品软件;机器学习;定价研究。
0引言
本研究旨在探讨基于XGBoost回归的高价值军品软件成果定价,对于军工领域业具有重要意义。通过研究军品软件价值的影响因素,结合XGBoost回归算法在定价中的应用,探索提高军工企业的定价策略精准度。精准的定价策略不仅可以更准确客观地判断军品软件价值,还能够更好地促进军品预算的合理性,促进正向的研发活力。本研究对于指导军工领域制定合理定价策略、提高预算合理性、增强研发活力具有积极的实践意义。
1 理论预测模型
高价值军品软件成果定价理论模型包括预测模型和评价模型两个方面,两部分采用不同的模型,提高算法的适用性。其中预测模型基于机器学习原理,采用XGBoost 回归模型,提高模型预测的准确率,评价模型采用更易于理解的均方误差Mean Squared Error(MSE)模型,以提升理论模型结果判断的可解释性,将两种模型结合,既提高预测模型的准确率,又具有较强的可解释性,便于对价格领域做决策支撑。
XGBoost(eXtreme Gradient Boosting)是对梯度提升算法改进的一种算法。XGBoost训练时的目标函数由两部分构成,第一部分为梯度提升算法损失,第二部分为正则化项。其损失函数为:
(1)
其中n为训练函数样本数,是对单个样本的损失,假设它为凸函数,为模型对训练样本的预测值,为训练样本的真实标签值。每一步迭代都朝着使预测值尽可能地接近真实的方向进行。
XGBoost的高效性的主要原因之一是将损失采用二阶泰勒展开,将表示为上一次(t-1次)迭代的结果,表示当前学习器的结果,即将起在:
(2)
其中,。正则化项定义了模型的复杂程度:
(3)
其中,是将全部k棵树的复杂度进行求和,添加到目标函数中作为正则化项,用于防止模型过度拟合。其中,为所有叶子结点的向量,T为叶子节点数目。
每一次节点的分裂取决于信息增益的变化,信息增益可以如下表示:
(4)
其中,和表示分裂后形成的左右两拨样本。信息增益大于0时可以分裂,增益小于0时则不分裂。最终达到一定的收敛条件后结束迭代,至此得到一个完整的模型。
2建模及影响因子
高价值军品软件的构成因素主要受重要核心功能点影响,是软件价值的重要影响因素,其次是软件规模,规模主要体现为功能点数以及代码行数。首先,采用回归模型分离高价值军品软件的定价影响因素变量。虽然本文希望能假设在重要核心功能价值影响是在段时间内不发生变化的,但是实际上在一定时间跨度内,重要核心功能价值可能会发生变化。但是可以肯定的是越接近当下时刻的数据所分离出来的重要核心功能价值是最接近真实情况的。所以本文对模型的损失函数进行了调整,对时间较近的样本赋予较大的权重,而对较远的样本赋予较小的权重。
在高价值军品软件定价中,首先建立均值回归模型中的一般回归模型。
(12)
其中β₀为上一步分离得到的价值定价因子,C为与重要核心功能点价值相关的因子,I为软件规模量相关因子,G为其他相关综合影响因子,根据实际情况,还可进一步拓展影响因子。建立均值回归模型,用最小二乘法求解后建立模型,将测试集数据输入训练好的模型,根据上文介绍的变量,检验模型结果,并将模型预测值与真实值作对比,通过对定价结果的分析与优化,我们能够不断改进XGBoost回归模型,提高其预测准确性和稳定性,为军品软件成果的定价提供更为简便易用的定价参考支持。
3评价方法
均方误差Mean Squared Error(MSE)计算的是预测值和实际值的平方误差。假设真实值是,预测值为,样本数为n,则有:
(5)
数值越小,代表拟合值和真实值越接近,模型越好。
平均绝对误差Mean Absolute Error(MAE)计算的是预测值和实际值的绝对误差,沿用以上假设,可以表示为:
(6)
数值越小,代表拟合值和真实值越接近,模型越好。
平均绝对百分比误差Mean Absolute Percentage Error(MAPE) ,它是一种预测值和实际值的相对度量,沿用以上假设,可以表示为:
(7)
数值越小,代表拟合值和真实值越接近,模型越好。
中位数绝对误差Median Absolute Error( Median-AE) 通过取目标和预测之间的所有绝对差值的中值来计算损失,可以减弱异常值的影响。沿用以上假设,中位数绝对误差( Median-AE)被定义为:
(8)
数值越小,代表拟合值和真实值越接近,模型越好。
区间一致性检验,根据属性数据分析中的一致性检验——卡方检验的原理。本文提出类似的区间一致性建议。卡方检验主要是检验属性数据的实际分布与理论分布是否存在统计学意义上的偏差的建议方法,公式如下:
(9)
为水平的观察频数,为水平的期望频数,原假设是理论分布与实际分布一致,所以如果P小于0.05,就认为理论和实际分布不一致,拒绝原假设。借助于这种思想,通过模型预测出对应的分为点的值。两两构成预测区间,判断样本真实值被包含到此区间的比例,计算所得的比例应越接近两分为点之差越好。通过此方法来衡量分位数回归相关模型的表现情况。
4结语
通过本文对基于XGBoost回归的高价值军品软件成果定价研究的探讨,得出了一些重要结论。XGBoost回归算法作为一种强大的机器学习算法,在军品软件成果定价中具有独特的优势,其高准确性和良好的泛化能力使其成为定价模型简单易用的选择,能够有效地预测高价值军品软件的定价。未来,我们将继续深化研究,进一步优化定价模型,为军品软件成果的定价问题提供更加有效和可靠的解决方案。
参考文献
[1]镇浩楠.基于XGBoost算法的机器学习模型在可疑交易监测领域的应用[J].金融科技时代,2024,32(06):41-47.
[2]李金霞,卞华星,温富国,等.基于XGBoost的电网物资供应商履约风险预测[J].计算机科学,2024,51(S1):1186-1194.