论机器学习与数值分析

(整期优先)网络出版时间:2024-06-18
/ 2

论机器学习与数值分析

赵云震

重庆交通大学 重庆  400074

摘要试错法在材料发展历史上曾起着重要的作用,然而其往往伴随者大量的精力消耗与资源浪费。在人类计算机技术急速发展的前提下,例如第一性原理计算、分子动力学等运用计算机进行新型材料的开发已经成为主流。由于有了计算机的加持,人们往往可以在短时间内进行大量的数据计算,然而计算机目前只能得出计算的结果,对于计算结果的后续处理仍然需要人为处理。以此为前提人们发展出了机器学习这一新兴学科,机器学习旨在通过计算机的指定程序算法对输入计算机的数据进行处理并保留处理过程的数据,在下一次有类似的数据导入时便可以进行快速处理,对于新导入的数据只要不断完善其学习算法即可进行处理。数据处理中由于算法的存在会导致误差的出现,如何避免机器学习在数据处理中产生较大误差成为工作者们的主要研究方向。本文简单介绍了机器学习中家督学习板块,并简单阐述了数值分析中的各类数据处理方式再机器学习中的体现。通过与数值分析的结合,机器学习再进行数据处理时的准确性得到了较大提升。

关键字:数据处理;机器学习;算法;误差

绪论

人类的发展与材料的发展息息相关。各式各类的材料为人们在各个领域的发展发挥了重要的作用,例如半导体材料、陶瓷材料、高分子材料、复合材料、超导材料、生物材料等等。随着人类科技的发展,各行各业目前发展水平均已达到一定高度,这就意味着想要在原本的基础上继续向前发展,就必须开发出适用于该行业的更精细、更适配的材料。前人科学家们在开发新材料上所用到的最主流方法便是试错法,科学家们通过自己的经验,判断所需开发材料的各类性能,选取合适的物质进行合成。然而这种方法不仅会浪费很多科研资源,对材料之间的契合度也根本无法控制,进而导致绝大部分时间、精力都浪费在材料开发上。

1 机器学习

1.1 数据生成

数据生成是由高通计算的结果或者前人已经构建好的数据库中进行数据选取,其中对于选取数据的数量和质量会对机器学习结果产生较大影响,数据量的多少可以选择不同的学习模型来匹配,例如数据量小的时候则选择决策树、支持向量机和K近邻算法,这是由于这三种模型对于小体系数据集就可以拟合出优异结果。而数据量大的时候选择深度学习算法例如卷积神经网络。

1.2 材料特征化

    材料特征化是指将结构转化为数值形式的过程,生成的向量或张量称之为特征或描述符,类似于将材料的特征转化成与算法匹配的语言,但是要注意的是不可模糊不清。例如同分异构体存在时,要求描述符能够准确的给出其两者的差别。否则会出现一个例如在函数中的情况f(x1)=y1=y2

1.3 模型训练

对于已经选择出的数据和已经转化好的材料特征,应该先对其进行误差的分析,从而达到构建出误差最小的体系。常见评估模型误差的指标是平均绝对误差(MAE)、均方根误差(RMSE)和决定系数(R2)。对于分类机器学习模型,常见的评估模型误差的指标是精确率、召回率和准确率。 确定评估指标后,需要选择相应的超参数搜索算法使模型达到最佳拟合效果。目前常见的超参数搜索算法有网格搜索(Grid search)、随机搜索(Random search)和贝叶斯优化搜索 (Bayesian Optimization search)。 网格搜索是将所有参数 (包括连续型超参数和离散型超参数) 统一格点化,依次遍历所有超参数组合可能性,然后基于评估指标筛选出最佳超参数组合。随机搜索是在每个超参数范围内进行不含倾向性的随机撒点,寻找最佳超参数组合,随机点数越多,找到最佳超参数的可能性越高。

2 数值分析

2.1 迭代法

迭代法意思就是通过层层迭代之后找出所需问题的精确解过程。它往往利用最初“随机”假定一个原始值,通过这个原始值与原函数之间的关系来寻求更为精确的解。当然,对于“随机”值的确定不同的迭代法也会有一定的要求。例如在处理函数的各点斜率变化不大并且斜率较小的情况下随即值可以随便取值,而对于其他斜率变化过快的函数应采取其他方式寻求随机值。迭代法通过初始值迭代到近似值的过程没有确定的步骤,即在使用迭代法时也许会因为选取“随机”的初始值不同而进行多次的迭代却任没有找到近似解,并且即使找到了也只是函数的近似解。因此在机器学习进行迭代过程中为了节约计算成本常常会设置一个界截断能,当上一次迭代的数据与这一次迭代的数据之间相差小于所设置的截断能时,则认为已经寻求得了近似解而不再继续迭代。

机器学习会常常用到数值分析中的迭代法来求解实际问题。计算数据矩阵时常常会用到例如牛顿法、二分法、雅可比法、广义最小残量方法(GMRES)及共轭梯度等法方法。具体算法不再阐述。

2.2 误差

   误差存在着我们生活的每一个地方。进行数值分析的时候由于不可能拥有可以显示无限位数的设备,常常会出现舍入误差,即使用浮点数来表示实数,仍然无法完全避免舍入误差的存在。

   机器学习中的算法构建也同意存在着误差。在使用机器学习算法处理积分函数时,由于完全准确的积分算法是需要将曲线下的面积分成无限多个梯形,然后分别求出各个梯形的面积求和。但计算机只能执行有限位数的运算,对于无限次运算会导致计算机程序崩溃。因此数值分析中常用有限个梯形面积来代替微积分中的无限梯形个数,此时误差便会不可避免的出现。

   即使误差存在于各类算法之中,但是我们可以根据实际情况选择合适的算法来避免误差产生过大甚至可以避免误差带来的影响。这样的算法不仅仅对实验本身来说非常有利,而且也指引后来的研究者一个避免误差的方向。

2.3 方程求解

   在机器学习得到的数据构成的矩阵方程里,各类数据组合形成了线性方程组。

数值分析中对于线性方程组的求解是将线性方程组的系数用矩阵来代替,然后利用矩阵的分解方法以及矩阵的特点来进行求解。如高斯消去法、LU分解等等。对于那种有着特征的矩阵,如对称矩阵、正定矩阵等还有更为简便的方法来求解。

3 总结

   机器学习由于使用了较多的算法而与数值分析产生了较大渊源,数值分析所提供的各种处理数据的方法不仅仅增加了机器学习数据处理中的准确性,还为其他理工科提供了获得更加精确的实验数据方法。材料的制备合成正是由于各类数学工具的存在以及各个学科蓬勃发展同时也得到了快速进步。

   本文阐述了机器学习中所使用到的监督学习的各种算法以及流程,目前监督学习的各类算法已经得到完善,对于数据整合、处理的能力也比较强劲,对于模型的训练也开发出了较多的算法,对第一性原理计算的大量数据结果也能进行学习分析,大大提高了科研人员参与科研项目的效率。机器学习与数值分析的结合更是锦上添花,通过数值分析各类数据处理办法,机器学习在进行数据整合时的准确性更上了一个层次。

参考文献

[1]万新阳, 章烨辉, 陆帅华, 等. 机器学习加速搜寻新型双钙钛矿氧化物光催化剂[J]. 物理学报, 2022,71(17):292-300.

[2]冯金娇, 范雅文, 赵辉. MoS2光学性质的第一性原理计算[J]. 天津师范大学学报(自然科学版), 2022,42(1):14-18.

[3]Pr3+掺杂红色长余辉发光材料研究进展[J].

[4]王志腾, 王翠军, 陈轩, 等. Mg_(12)O_(12)纳米线掺杂3d过渡金属元素的第一性原理计算研究[J]. 原子与分子物理学报, 2023,40(04):85-90.

[5]常超, 张辉, 来媛, 等. FeAlNiCrMn高熵合金结构稳定性和力学性能的第一性原理计算[J]. 材料导报, 2022,36(14):62-66.