一种贷款业务模型的特征确定系统及方法与流程
admin
2022-11-19 09:13:24
0
该技术已申请专利。仅供学习研究,如用于商业用途,请联系技术所有人。 一种贷款业务模型的特征确定系统及方法与流程

1.本发明涉及金融领域,特别涉及一种贷款业务模型的特征确定系统及方法。


背景技术:

2.随着当前社会的金融和计算机发展,涉及越来越多的金融交易,随着银行业务的快速发展,银行的核心系统的功能也在逐渐完善,其中包括对用户提供贷款的功能。
3.贷款是银行的一项重要业务,可以通过分析客户数据构建贷款业务模型来计算客户的信用,从而判断是否能够给该客户进行贷款。在构建贷款业务模型的过程中,提取用户特征是分析客户数据中的重要一步。而随着社会与经济的发展,以及数据收集技术的提高,用户特征越来越多,呈现高维趋势,用户特征间的关系也越来越错综复杂。而从充满噪音的数据里提取有用信息,对贷款业务模型的准确度具有决定性影响。
4.因此,现在亟需一种贷款业务模型的特征确定方法。


技术实现要素:

5.有鉴于此,本技术的目的在于提供一种贷款业务模型的特征确定系统及方法,能够降低特征维度,辅助进行特征选择。
6.本技术实施例提供一种贷款业务模型的特征确定系统,所述系统包括:数据采集模块、数据计算模块和特征组合筛选模块;
7.所述数据采集模块用于获取办理贷款业务的客户的目标数据,形成样本矩阵;
8.所述数据计算模块用于根据所述样本矩阵计算得到样本协方差矩阵,利用交替方向乘子法将所述样本协方差矩阵计算为逆协方差矩阵;
9.所述特征组合筛选模块用于根据所述逆协方差矩阵形成特征图,根据所述特征图确定多个特征是否相关联,将相关联的特征确定为贷款业务模型的组合型特征。
10.可选地,所述数据采集模块具体用于对所述目标数据进行聚类,对聚类后的缺失数据进行补充以及对异常数据进行替换,对属性数据赋值,形成样本矩阵。
11.可选地,所述特征组合筛选模块还用于根据所述特征图,确定多个独立特征;
12.将多个所述独立特征中在业务层面属于同一类别的特征确定为贷款业务模型的同类特征。
13.可选地,所述特征组合筛选模块具体用于根据所述特征图中相邻两个特征之间是否相连确定所述相邻两个特征是否相关联。
14.可选地,所述目标数据至少包括住址、收入、是否持有信用卡、是否存在交易、交易频率、账户数、是否具有贷款和贷款额度。
15.本技术实施例提供一种贷款业务模型的特征确定方法,所述方法包括:
16.获取办理贷款业务的客户的目标数据,形成样本矩阵;
17.根据所述样本矩阵计算得到样本协方差矩阵,利用交替方向乘子法将所述样本协方差矩阵计算为逆协方差矩阵;
18.根据所述逆协方差矩阵形成特征图,根据所述特征图确定多个特征是否相关联,将相关联的特征确定为贷款业务模型的组合型特征。
19.可选地,所述获取办理贷款业务的客户的目标数据,形成样本矩阵包括:
20.对所述目标数据进行聚类,对聚类后的缺失数据进行补充以及对异常数据进行替换,对属性数据赋值,形成样本矩阵。
21.可选地,所述方法还包括:
22.根据所述特征图,确定多个独立特征;
23.将多个所述独立特征中在业务层面属于同一类别的特征确定为贷款业务模型的同类特征。
24.可选地,所述根据所述逆协方差矩阵形成特征图,根据所述特征图确定多个特征是否相关联包括:
25.根据所述特征图中相邻两个特征之间是否相连确定所述相邻两个特征是否相关联。
26.可选地,所述目标数据至少包括住址、收入、是否持有信用卡、是否存在交易、交易频率、账户数、是否具有贷款和贷款额度。
27.本技术实施例提供了一种贷款业务模型的特征确定系统,系统包括:数据采集模块、数据计算模块和特征组合筛选模块,数据采集模块用于获取办理贷款业务的客户的目标数据,形成样本矩阵,数据计算模块用于根据样本矩阵计算得到样本协方差矩阵,利用交替方向乘子法将样本协方差矩阵计算为逆协方差矩阵,特征组合筛选模块用于根据逆协方差矩阵形成特征图,根据特征图确定多个特征是否相关联,将相关联的特征确定为贷款业务模型的组合型特征。也就是说,本技术实施例通过利用数据采集模块采集目标数据形成样本矩阵,而后数据计算模块根据样本矩阵计算得到逆协方差矩阵,特征组合筛选模块可以根据逆协方差矩阵形成特征图,可以根据特征图将相关联的特征确定为组合型特征,即将多个特征降低为一个特征,大大降低了特征的维度,降低特征选择的难度,辅助进行特征选择,并且能够利用组合型特征进行贷款业务模型的训练。
附图说明
28.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
29.图1示出了本技术实施例提供的一种贷款业务模型的特征确定系统的结构示意图;
30.图2示出了本技术实施例提供的一种贷款业务模型的特征确定方法的流程示意图。
具体实施方式
31.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本
申请一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
32.在下面的描述中阐述了很多具体细节以便于充分理解本技术,但是本技术还可以采用其它不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本技术内涵的情况下做类似推广,因此本技术不受下面公开的具体实施例的限制。
33.本发明提供的贷款业务模型的特征确定系统及方法可用于金融领域或其他领域,例如,可用于金融领域中的贷款应用场景。其他领域为除金融领域之外的任意领域,例如,计算机领域。上述仅为示例,并不对本发明提供的贷款业务模型的特征确定系统及方法的应用领域进行限定。
34.随着当前社会的金融和计算机发展,涉及越来越多的金融交易,随着银行业务的快速发展,银行的核心系统的功能也在逐渐完善,其中包括对用户提供贷款的功能。
35.贷款是银行的一项重要业务,可以通过分析客户数据构建贷款业务模型来计算客户的信用,从而判断是否能够给该客户进行贷款。在构建贷款业务模型的过程中,提取用户特征是分析客户数据中的重要一步。而随着社会与经济的发展,以及数据收集技术的提高,用户特征越来越多,呈现高维趋势,用户特征间的关系也越来越错综复杂。而从充满噪音的数据里提取有用信息,对贷款业务模型的准确度具有决定性影响。
36.由于数据高维稀疏,对计算效率的要求也越来越高,这导致传统的特征工程越来越不能满足这种高维特征选择的需求,此时需要一种新的方法来解决高维特征选择。
37.因此,现在亟需一种贷款业务模型的特征确定方法。
38.基于此,本技术实施例提供了一种贷款业务模型的特征确定系统,系统包括:数据采集模块、数据计算模块和特征组合筛选模块,数据采集模块用于获取办理贷款业务的客户的目标数据,形成样本矩阵,数据计算模块用于根据样本矩阵计算得到样本协方差矩阵,利用交替方向乘子法将样本协方差矩阵计算为逆协方差矩阵,特征组合筛选模块用于根据逆协方差矩阵形成特征图,根据特征图确定多个特征是否相关联,将相关联的特征确定为贷款业务模型的组合型特征。也就是说,本技术实施例通过利用数据采集模块采集目标数据形成样本矩阵,而后数据计算模块根据样本矩阵计算得到逆协方差矩阵,特征组合筛选模块可以根据逆协方差矩阵形成特征图,可以根据特征图将相关联的特征确定为组合型特征,即将多个特征降低为一个特征,大大降低了特征的维度,降低特征选择的难度,辅助进行特征选择,并且能够利用组合型特征进行贷款业务模型的训练。
39.为了更好地理解本技术的技术方案和技术效果,以下将结合附图对具体的实施例进行详细的描述。
40.参见图1,该图为本技术实施例提供的一种贷款业务模型的特征确定系统的结构示意图。
41.本实施例提供的贷款业务模型的特征确定系统100包括:数据采集模块110、数据计算模块120和特征组合筛选模块130。
42.在本技术的实施例中,数据采集模块110用于获取办理贷款业务的客户的目标数据,形成样本矩阵。其中目标数据至少包括客户性别、住址、收入、是否持有信用卡、是否存在交易、交易频率、账户数、是否具有贷款和贷款额度以及其他相关信息。
43.具体的,数据采集模块110可以对目标数据进行聚类,对聚类后的缺失数据进行补
充以及对异常数据进行替换,对属性数据赋值,形成样本矩阵。也就是说,数据采集模块110在采集得到目标数据之后,可以对目标数据进行处理,最终新成样本矩阵。
44.作为一种示例,对多个办理贷款业务的客户进行数据采集,构成初始样本矩阵yn×
p
,其中,n为客户数量,p代表p维特征数据,即p维目标数据。而后可以对初始样本矩阵进行缺失值处理、异常值处理、属性值数值化以及数据中心标准化的处理。
45.缺失值处理指的是对初始样本矩阵yn×
p
进行聚类,聚类后会形成多个用户群组,可以对聚类后的缺失值根据缺失类型进行补充:
46.对于定量的特征缺失值,可以将所在用户群组该特征数据的平均值作为补充。
47.对于定性的特征缺失值,可以将所在用户群组该特征数据的众数作为补充。
48.异常值处理指的是对每个特征数据计算列均值μ和标准差σ,当特征数据不在[μ-3σ,μ+3σ]范围时,判定为异常值,此时可以将异常值进行替换,替换条件和缺失值补充类似:
[0049]
对于定量的特征异常值,可以将所在用户群组该特征数据的平均值作为补充。
[0050]
对于定性的特征异常值,可以将所在用户群组该特征数据的众数作为补充。
[0051]
属性值数值化指的是对定性的特征数据进行数值化,例如将特征数据男定义为1,将特征数据女定义为0。
[0052]
数据中心标准化指的是对每个特征去除量纲,例如可以根据去除量纲。
[0053]
由以上对目标数据的处理过程之后,可以得到样本矩阵xn×
p
,其中,n为客户数量,即样本数量,p代表p维特征数据。
[0054]
在利用数据采集模块110获取得到样本矩阵之后,可以利用数据计算模块120对样本矩阵进行计算得到样本协方差矩阵,而后利用交替方向乘子法将样本协方差矩阵计算为逆协方差矩阵。
[0055]
具体的,根据样本矩阵xn×
p
可以计算得到样本协方差矩阵而后可以利用交替方向乘子法(alternating direction method of multipliers,admm)将样本协方差矩阵计算为逆协方差矩阵
[0056]
在实际应用中,也可以利用对偶交替方向乘子法(dual alternating direction method of multipliers,dadmm)将样本协方差矩阵计算为逆协方差矩阵
[0057]
在实际应用中,可以根据dadmm算法提出dadmm统计量而后利用dadmm统计量更新逆协方差矩阵元素,当其中,α为显著性水平,
[0058]
特征组合筛选模块130可以根据逆协方差矩阵形成特征图,根据特征图确定多个特征是否相关联,将相关联的特征确定为贷款业务模型的组合型特征。特征图中具有多个节点,多个节点即为多个特征,相邻节点之间的连线即可代表相邻特征之间具有关联。
[0059]
在实际应用中,通过dadmm统计量形成特征图,以便获取多个特征之间的关联关系,若则表示第i个特征和第j个特征无关联,在特征图中无边,即第i个特征和第j
个特征不连接,若则表示第i个特征和第j个特征有关联,在特征图中有边,即第i个特征和第j个特征连接。
[0060]
具体的,由于特征图直观的展示多个节点之间是否具有连线,因此特征组合筛选模块130可以根据特征图中相邻两个特征之间是否相连确定相邻两个特征是否相关联。也就是说,可以通过特征图直观的获取得到多个节点之间是否具有连线来确定多个特征是否相关联。
[0061]
在实际应用中,多个相关联的特征可以进行组合,形成组合型特征,降低目标数据的维度,以便降低贷款业务模型确定特征的难度。
[0062]
在本技术的实施例中,特征组合筛选模块130还可以根据特征图,确定多个独立特征,将多个独立特征中在业务层面属于同一类别的特征确定为贷款业务模型的同类特征,以便进一步降低目标数据的维度。
[0063]
作为一种示例,可以从客户是否逾期和业务层面分析,将收入和消费列为同类特征,在特征图中相关联。
[0064]
由此可见,本技术实施例利用dadmm算法能很好的解决特征高维的问题,解决传统特征方法不适用的特征维度大于样本数的问题,较为准确地恢复特征间的稀疏性,得出特征间的关系图,从而进行特征组合和筛选。且对于高维数据计算高效。
[0065]
本技术实施例提供了一种贷款业务模型的特征确定系统,系统包括:数据采集模块、数据计算模块和特征组合筛选模块,数据采集模块用于获取办理贷款业务的客户的目标数据,形成样本矩阵,数据计算模块用于根据样本矩阵计算得到样本协方差矩阵,利用交替方向乘子法将样本协方差矩阵计算为逆协方差矩阵,特征组合筛选模块用于根据逆协方差矩阵形成特征图,根据特征图确定多个特征是否相关联,将相关联的特征确定为贷款业务模型的组合型特征。也就是说,本技术实施例通过利用数据采集模块采集目标数据形成样本矩阵,而后数据计算模块根据样本矩阵计算得到逆协方差矩阵,特征组合筛选模块可以根据逆协方差矩阵形成特征图,可以根据特征图将相关联的特征确定为组合型特征,即将多个特征降低为一个特征,大大降低了特征的维度,降低特征选择的难度,辅助进行特征选择,并且能够利用组合型特征进行贷款业务模型的训练。
[0066]
基于以上实施例提供的一种贷款业务模型的特征确定系统,本技术实施例还提供了一种贷款业务模型的特征确定方法,下面结合附图来详细说明其工作原理。
[0067]
参见图2,该图为本技术实施例提供的一种贷款业务模型的特征确定方法的流程示意图。
[0068]
本实施例提供的贷款业务模型的特征确定方法包括以下步骤:
[0069]
s101,获取办理贷款业务的客户的目标数据,形成样本矩阵。
[0070]
s102,根据所述样本矩阵计算得到样本协方差矩阵,利用交替方向乘子法将所述样本协方差矩阵计算为逆协方差矩阵。
[0071]
s103,根据所述逆协方差矩阵形成特征图,根据所述特征图确定多个特征是否相关联,将相关联的特征确定为贷款业务模型的组合型特征。
[0072]
可选地,所述获取办理贷款业务的客户的目标数据,形成样本矩阵包括:
[0073]
对所述目标数据进行聚类,对聚类后的缺失数据进行补充以及对异常数据进行替换,对属性数据赋值,形成样本矩阵。
[0074]
可选地,所述方法还包括:
[0075]
根据所述特征图,确定多个独立特征;
[0076]
将多个所述独立特征中在业务层面属于同一类别的特征确定为贷款业务模型的同类特征。
[0077]
可选地,所述根据所述逆协方差矩阵形成特征图,根据所述特征图确定多个特征是否相关联包括:
[0078]
根据所述特征图中相邻两个特征之间是否相连确定所述相邻两个特征是否相关联。
[0079]
可选地,所述目标数据至少包括住址、收入、是否持有信用卡、是否存在交易、交易频率、账户数、是否具有贷款和贷款额度。
[0080]
基于以上实施例提供的一种贷款业务模型的特征确定方法,本技术实施例还提供了一种贷款业务模型的特征确定设备,贷款业务模型的特征确定设备包括:
[0081]
处理器和存储器,处理器的数量可以一个或多个。在本技术的一些实施例中,处理器和存储器可通过总线或其它方式连接。
[0082]
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器的一部分还可以包括nvram。存储器存储有操作系统和操作指令、可执行模块或者数据结构,或者它们的子集,或者它们的扩展集,其中,操作指令可包括各种操作指令,用于实现各种操作。操作系统可包括各种系统程序,用于实现各种基础业务以及处理基于硬件的任务。
[0083]
处理器控制终端设备的操作,处理器还可以称为cpu。
[0084]
上述本技术实施例揭示的方法可以应用于处理器中,或者由处理器实现。处理器可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、dsp、asic、fpga或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
[0085]
本技术实施例还提供一种计算机可读存储介质,用于存储程序代码,该程序代码用于执行前述各个实施例的方法中的任意一种实施方式。
[0086]
在本技术的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或
上述内容的任何合适组合。
[0087]
需要说明的是,本技术上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本技术中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、rf(射频)等等,或者上述的任意合适的组合。
[0088]
当介绍本技术的各种实施例的元件时,冠词“一”、“一个”、“这个”和“所述”都意图表示有一个或多个元件。词语“包括”、“包含”和“具有”都是包括性的并意味着除了列出的元件之外,还可以有其它元件。
[0089]
需要说明的是,本领域普通技术人员可以理解实现上述方法实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)或随机存储记忆体(random access memory,ram)等。
[0090]
可以以一种或多种程序设计语言或其组合来编写用于执行本技术的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0091]
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元及模块可以是或者也可以不是物理上分开的。另外,还可以根据实际的需要选择其中的部分或者全部单元和模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0092]
以上所述仅是本技术的优选实施方式,虽然本技术已以较佳实施例披露如上,然而并非用以限定本技术。任何熟悉本领域的技术人员,在不脱离本技术技术方案范围情况下,都可利用上述揭示的方法和技术内容对本技术技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本技术技术方案的内容,依据本技术的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰,均仍属于本技术技术方案保护的范围内。

相关内容