云南师范大学 云南昆明 650500
摘要:文章从对农户贷款进行合理有效风控出发,分析传统农户贷款风险控制存在的弊端,并结合金融科技的兴起和大数据技术的特点,立足于农户贷款有效风控和银行战略决策和发展的需要,提出农户贷款风控的新路径——大数据技术风控。研究发现通过金融与大数据的结合,可利用大数据技术进行风控的优势设计出科学的信用评价模型,从而合理控制农户贷款风险。具体操作按照模型对农户数据标签化分类,利用XGBoost模型,将各种数据量化赋分,锁定可能存在风险的因子,提高信用评价的准确性和科学性,最终采取风险转移、风险规避等措施进行风险控制。针对利用大数据技术对农户贷款进行风险控制实施中存在的障碍,研究指出银行在大数据环境下对农户贷款风控具体的应对措施,并提出贷款业务健康化发展的建议,真正做到服务于“三农”,推动农户贷款业务和农村地区经济的长效发展。
关键词:大数据;农户贷款;信用评价;风险控制
一、背景
在2023年召开的两会关于今年政府工作建议中指出要有效防范化解重大金融风险,着力推进乡村振兴。近年来,以大数据技术应用为核心的互联网金融在中国得到快速发展,传统银行业在互联网快速发展的冲击下,也开始融入大数据技术、云计算等金融科技,围绕大数据对巨量资料的系统采集、处理和管理能力正在被广泛应用于贷款风险控制方面。农户贷款作为农业金融的重要组成部分,其指的是银行等金融机构向从事农业的个体客户发放贷款,随着我国对“三农”问题的重视程度不断提高,金融扶贫任务的不断强化,大数据技术与农村金融不断融合,利用大数据技术对缺少质押物的农户进行精准用户画像,有利于银行准确评价农户信用风险,同时也对我国农户贷款风险控制提出了新的要求和标准。大数据作为互联网高速发展的产物,主要是通过收集用户大量的信息数据资料,形成庞大的数据组,大数据随着信息科技的发展其应用领域不断扩展,从获取数据到信息管理再到后期对数据分析进行应用,大大超出了原有传统的数据库能力范围,实现了一定的创新突破。目前,利用大数据技术对农户贷款进行风险控制的应用时间不长,但这种技术的运用能够有效提升贷款风控效率,因此大数据技术在风险控制方面的应用是一次技术性的突破和创新,需要我们深入拓展研究。
国外学者对于基于大数据技术进行风控的研究起步较早,Myers等对零售业的信贷进行数据判别和回归分析,实现了对金融公司的信贷风险预测[[1]]。Orgler通过线性回归分析对个人信贷风险进行评估,建立模型分析消费者行为更具有科学性和准确性[[2]]。Cano利用随机森林算法对不同数据集作特征选择,并对重要因子进行风险预测,最终得出随机森林方法较人工神经网络更有优势的结论。我国对大数据技术的风控研究更倾向于解决贷款前存在的问题研究,通过对借款人进行画像,对形成的数据进行综合分析从而实现较好的风控效果。巴曙松认为当前影响大数据风控效果的主要因素是原始数据的质量,要提高收集数据信息的真实性的同时还要考虑数据的实时性,建立大数据信息平台需要借贷人、金融机构和社会监管机构的多方合作。李萌通过构建Logit模型并进行分析,验证了Logit 模型能够为商业银行提供借款人风险程度的依据。随着互联网的普及,数据量积累的扩大化,数据信息的复杂化,云计算的科学性提高和储存成本的降低,促进了大数据技术风控的迅速发展,借助大数据技术构建的模型,通过数据分析实现风控的有效性和科学性。
本文以大数据技术环境下的农户贷款风险控制为研究对象,分析利用大数据技术对农户贷款风险控制现存的障碍以及如何将大数据技术融入风险控制当中,对所收集的农户信息数据进行标签化分类,再利用XGBoost模型,将各种数据量化赋分,锁定可能存在风险的数据利用科学的方法进行风险控制。力求构建既包含理论深度,又兼具实践可操作的方案,最终根据研究结果提出对策及建议,不断优化农户贷款环境,解决农户贷款现存的有关风险问题,致力于农村信贷业务的高效发展。
二、基于大数据技术的农户贷款风险控制模型
在对农户贷款进行风控的过程中,利用大数据运用不同种算法设计构建风控模型,分别在贷前、贷中和贷后对应进行风险识别、风险评估和风险控制,贯穿农户整个贷款业务,提高农户贷款效率。由于风险管理业务的业务量和数据量较大,数据信息处理流程复杂,传统的人工处理模式容易产生数据遗漏,风控滞后,风控效率较低的情况,而利用大数据技术可以对农户的风险进行客观的判断分析,在提高贷款效率的同时也能够降低成本。
在运用大数据技术进行农户贷款风险控制研究中,主要根据如图 1流程进行。大数据风控在业务层面主要是对多方汇总的数据进行存储,作为大数据建立模型的数据源,在操作层面对各数据进行加工整理,建模分析。对农户贷款进行风控的第一步就是广泛收集并持续更新农户的数据,在对农户信息采集中,可分为银行等金融机构共享平台获取和农户自主上报两种形式,主要是对农户的基本信息、资产收入、借贷状况和IP地址等分类整理,例如根据农户的年龄可判断农户的道德风险、还款意愿和还款能力,根据这些关联因素,金融机构可以通过MagicBI数预智能科技对农户进行画像分析,对贷款做出初步的风险预测。在数据分析中主要是利用大数据建立的平台实时动态调整数据信息,再将信息汇入设计的农户信用评价模型中,将农户的信用划分不同等级,根据对农户的信用评估大致确定农户贷款的风险系数,最后分类储存数据。针对计算所得的数据采用实时监控和动态预警,利用XGBoost模型,将各种信息数据量化整理,当模型出现问题时,快速定位其对应的子模型分,然后依据子模型评分去寻找对应的异常数据源,当发现贷款隐患时及时预警,首先对具有重大贷款风险的因子实施控制,运用风险转移和风险规避等方式。农户的数量大,地区分布广,都具有各自的特点,因此建立风控过程评价和反馈机制尤为重要,不断调整优化模型、增强与不同农户的适配度对提高风险控制的及时性和准确性具有重要的意义。
三、基于大数据技术的农户贷款风险控制实施障碍
利用大数据技术对农户贷款风险进行控制的基础在于所获农户数据信息的数量、种类以及质量。大数据技术的应用对农户信息需求量大、信息质量要求高、信息变动时效性强,但目前对于农户信息数据采集的难度较大,不便于技术应用。
采集农户贷款信息数据多由当地金融机构完成,但农户的信息量较大,零碎化程度高,如涉及农户的征信数据、经营行为、家庭收入等方面,前期搜集信息的成本较高,农户在提供贷款数据信息时可能存在一定的道德风险,后期将信息进行计算量化分析的难度较大。农村基层贷款服务人员数量有限,且缺乏专业的数据采集统计知识,前期筛选农户的能力较弱,金融机构很难获取农户全面的信息,对应的风险评估及控制手段匮乏,难以保证数据的真实性与可靠性,很难将真实有效的数据信息置于风控模型中。其次受采集信息人员素质的影响,容易产生操作风险,在采集过程中会存在错误信息,无法在后期进行数据处理和评估。受地区发展状况的限制,现阶段农村信用信息数据采集模式单一,主要采取登门调查、手工录入的方式,采集农户数据的方式较为落后,当前多数农村地区采用传统纸质调查方式,没有专门的数据采集设备,致使数据采集统计手段落后,工作率低,出错率高,不便于获得规范的财务信息。
现阶段各方线上线下共同收集的农户数据信息与利用大数据管理的要求间仍存在差距,采集农户数据信息更需要多方合力、多措并举。
综合评价指的是对多属性体系结构所描述的对象系统全面的评价。农户群体涉及信用评价的指标较多,影响信用行为的因素较复杂,增大了综合信用的评价难度,
农户信用等级评价是深入贯彻落实科学发展观,创新金融支农工作的一项重要实践。传统的农户信用评价是通过农户提出申请,金融机构通过收集农户的基本信息展开调查,基本信息主要有农户家庭收入、生产状况、还款能力和信誉状况等,这些数据信息量化难度大,很难测算农户的信用等级,另外,信用评价过程一般是从获取的农户近百个数据项中提取几十个变量通过一种预测分析模型做出风险量化评估,这种评价模型存在极大的局限性。
由于农户数量较大,地区分布广泛,各个地区从事不同行业的各类农户都具有各自的特点,因此在利用大数据技术设计模型进行农户贷款风控中,需要大数据不断深化学习,设置多种信用评价模型,提高不同种模型与不同类农户的适配度,现阶段寻找适合目标农户的评价模式和方法均存在一定的难度。
数据价值本身存在时效性,在数据产生过后如果不能加以处理应用,就无法实现数据价值的最大化。大数据风险管理技术对数据信息的时效性要求高,数据信息的实时性对风控的准确性具有一定的影响。
传统的贷款信息收集主要依靠人工,然而受人力物力等资源的约束,这种方式使得信息数据产生明显的局限性和滞后性。一方面,金融机构的工作人员无法全面获取内外部数据,另一方面,各部门间信息共享互动较难,现存的农户信息数据共享平台的使用效率不高,信息质量参差不齐,各金融机构在对接过程中存在屏障,对农户信用信息的完整性和及时性产生影响。然而由于农户数量庞大,信息数据复杂多变,需要数据从离线到实时更新,因此保证数据的时效性和完整性具有一定的难度。
银行在农户信息变化后无法获取最新数据,对数据的收集频率、收集能力均不能完全满足大数据风控对数据时效性的要求,因而在利用算法模型进行风险识别、判断和控制时易导致风险识别和风险控制缺乏有效性。
在传统的农户数据综合评价中,银行的信用评级主要是5P或5C要素分析法,这些评价模型多以历史数据为基础,评级结果滞后片面,获得的数据类型主要涉及信用额度和各项交易行为的记录,数据类型较为单一,但由于农户信息数据采集难度大,征信的数据较为零碎,变动性强,因而使综合评价缺乏科学性。
Abellan等以Bagging方案将不同的基学习器应用于信用评分,结果表明以决策树作为基学习器的集成模型有着较好的信用评分效果。集成学习是一种将各模型结果整合后得到比单个算法模型更好的预测效果的机器学习方法,将不同种类的农户信息关联,相互补充,一定程度上增强了农户信息的融合度。美国的ZestFinance金融机构,其研究团队的重要成员由数学家和计算机专家组成,他们设计了多种信用评分模型,专注于信用评估,但依然会面临数据充足性和可得性的挑战,这对最终的评价结果产生了一定的影响。
四、基于大数据技术的农户贷款风险控制对策
传统数据采集所获得的数据是系统化、固定化的,相对简单,而大数据技术具有非结构化的特点,形式种类多样,因此对数据质量的要求较高。由于大数据拥有大量基础数据,具有较强的复杂性,在其保障现代农业持续发展的过程中,不仅要重视数据安全,随时做好数据风险防范,还要对大数据相关技术进行不断优化。金融机构在采集农户贷款数据信息中,可以结合线上线下共有的数据,将多方面与农户信息有关的有价值的数据汇总起来。线上数据从当地农业农村等部门等渠道获得,建立农户贷款信息数据库,完善农户信息档案,填补信用空白,同时可以建立数据信息共享服务平台,对从不同机构,不同地区所获得的数据进行规范化可视化处理,确立数据运行的标准,统一信息数据的格式,弥补信息采集质量的短板。线下可以通过实地走访调查,与当地村委会合作,上门逐户填表采集信息,再将各类数据在金融机构汇总,交叉验证,提高数据信息的质量。
利用大数据技术可以采用系统日志采集农户信息,系统日志采集具有高可用性、高可靠性、可扩展性,能够收集大量农户数据,供在线或离线的金融机构数据分析系统使用。
对农户综合信用进行评价是否精准科学与评价方法的选择和评价指标的选取有密切联系,良好的评价方法更能如实反映出农户的信用等级,为后期农户贷款风险控制奠定了基础。
金融机构通过调整信用体系与各主体以及农户信用数据平台之间的衔接,对农户的财产总额、经营规模、贷款还款记录等做出分析,有助于精准评价农户的风险控制能力。借助大数据能够有效对农户综合信用进行分析处理且效率较高这一特点,能够使得金融机构等各种贷款服务机构掌握有关农户综合信用的准确数据信息,提高农户贷款的规范性,从而降低贷款引起的风险。
从大数据角度来看,基于互联网的数据是一个动态和流量的概念,从速度方面要考虑信用风险的识别更加频繁和及时。从会计信息原理上讲,金融风险表现存在滞后性,一些数字并不能准确反映出农户贷款的风险,传统的数据信息采集及后期分析处理模式效率较低,从农户信息自身变动到最终录入银行等金融机构的共享平台的过程中,农户的经济收入、信用状况可能已发生实质性改变。而运用大数据技术可以高效抓取农户信息,如金融机构可以通过DMP平台,获取农户结构化和非结构化的信息,同时银行可以设置数据更新的专责人员,全天候将农户信息变动纳入监控范围,确保对农户数据信息作出科学的信用评价。
在《关于进一步强化中小微企业金融服务的指导意见》中强调了运用大数据技术,建立风险管控模型,同时强调加强与外部信用信息平台的对接,加强信息共享和融通,提供高质量融资服务。根据我国现行农户贷款信息评价发展现状,分析得知,所设计的信用评价模型应遵循以下几个原则:
(1)可操作性。农户信息评价模型设计的首要原则即是可操作性,在立足科学性的基础上应便于贷款服务人员进行操作,使得模型评估体系可行性高,合理性强,能够如实根据农户信息反映农户信用。
(2)全面性。在所掌握的农户信息最大限度内进行评价,尽量满足全面性,发挥所采集的数据价值最大化。
(3)客观性。通过收集多户农户信息,做到信息量化处理,避免因工作人员的个人情感对信用评估结果造成影响,增强评价的客观性与科学性。
(4)灵活性。科学的农户信息评价模型应当与农户的具体实际情况、农户所在当地实际情况相结合,因此评价模型要及时灵活变通,适应外部环境的变化。
利用大数据技术建立的风控模型,具体操作方法首先是对农户的信息数据进行聚合,构建图谱或基础的信息库,有利于下一阶段的研究和分析,其次在数据处理中对各类数据标明风险标签,作为后期风险评估和控制的重要依据。在内部数据获取中,可以从当地农业农村等部门或征信系统获得农户的基本信息,将这些数据筛选、分类、标签等多种方式转化成可量化分析的数据,并通过数据科学评价农户信用,概括风险特征。
基于大数据技术设计的评价模型对数据、算法、算力均具有较高的要求,因此需要针对不同目标农户的特征不断训练、调整大数据评价模型,使模型评价结果更精准,与农户的适配度更高。
结语
面对大数据技术与金融不断融合的发展局面和现实环境,利用大数据技术设计针对农户贷款的风险控制模型对增强农户贷款信用评价的科学性,提高风控的准确性,促进农村地区经济发展具有至关重要的意义。本文充分发挥大数据技术的作用,指出农户贷款风控的实施路径,鼓励多方协同构建数据平台,从根本上解决评价模型、信息不对称以及道德风险等问题,推动农户贷款业务和农村经济的发展。
参考文献
[[1]] Myers J, Forgy E.The Development of Numerical Credit Evaluation Systems[J]. Publications of the American Statistical Association,1963,58(303):799-806.
[[2]] Orgler Y E. A Credit Scoring Model for Commercial Loans J]. Journal of Money Credit &Banking,1970,2(4):435-445.
基金项目:国家自然科学基金资助项目(71962037):B2B/B2C并行下的跨境电子商务出口定价与库存联合优化研究;云南省省院省校教育合作人文社会科学研究项目(SYSX202207):云南县域农村电子商务高质量发展的多维驱动机制与路径研究。云南省基础研究计划面上项目(202201AT070035):农产品订单质押贷款动态组合决策创新与风险控制研究;云南省教育厅重点实验室:数字金融开发与管理;云南省哲学社会科学规划项目(QN2019026):基于“三权”的农户组合抵押贷款决策优化研究;云南省研究生导师团队建设项目:金融创新与风险管理;云南省研究生优质课程建设项目(YH2020-C13):农村公共管理;云南省专业学位研究生教学案例库建设项目:农村公共管理。
作者简介:葛婧宸(2003-),女,河南平顶山人,汉族,本科生,研究方向为风险管理;通讯作者:李富昌(1981-),男,广东韶关人,汉族,博士、教授、博士生导师,研究方向为供应链管理。