逻辑回归及评分卡
什么是逻辑回归函数
逻辑回归是一种广义的线性回归模型,常用于金融信贷领域。逻辑回归的本质还是回归,即预测正样本的概率值,自变量为一个线性回归函数X,函数表达式如下: \[p(x) = {1\over{1+e^{-x}}}\] 给定M个训练样本\((X_1,Y_1),(X_2,Y_2)...(X_M,Y_M)\) 其中\(X_j=\{\{X_{ji}|i=1,2...N\}\}\) 为N维的实际向量,在LR模型中,第j个样本为正样本的概率是:
\[P(y_j=1|W,X_j)={1\over{1+e^{-W^TX_j}}}\] 其中W是N维的特征权重向量,也就是LR问题中要求解的模型参数.
逻辑回归函数p是一个单调递增函数,即随着X的增大,p也不断地增大。自变量X的取值范围为\((-\infty, +\infty)\),因变量p的取值范围为(0,1)。
为什么评分卡要使用逻辑回归函数
对客户未来发生违约概率的预测,是金融机构判断是否给客户发放贷款的关键指标,逻辑回归能为该指标提供落地实现。
在逻辑回归函数的作用下,可以将客户的特征信息(如婚姻、年龄、历史以往信贷表现等)综合起来并转化为一个概率值,该值给银行预测客户好坏提供了一个直观依据。即 p(x) 值越大,证明该客户在将来违约的概率越大。
好坏概率比的经济意义
放贷决策与收益
金融机构在面对一笔贷款申请的时候,通常只有两种审批结果:通过or拒绝,通过的概率为 h 。贷款审批通过后,客户又有两种结果:遵守合约或违反合约,遵守合约的即为好客户,违反合约的即为坏客户。其中,定义某客户为好客户的概率为 1-p,这时银行获得的收益为 l ,坏客户的概率为 p , 银行的损失为 D ,综合所有事件发生的概率,我们得到金融机构的收益为 h((1-p)l - pD)。
站在金融机构的角度,接受该客户的充分条件是\(h((1-p)l - pD)>0\) , 即 \(\frac{p}{1-p}\gt \frac{l}{D}\) ,也就是说当该客户的坏好概率比大于预计收益/潜在损失的比值的时候,金融机构才能盈利。所以对金融机构而言,预测某个客户的坏好概率比显得尤其重要。
坏好概率比定义
若金融机构能够精准的预测出客户将来的坏好比率(违约概率/按时还款概率),就能知道放出去这比贷款的盈利水平。这时候,就衍生出一个概念:坏好比(bad:good odds)。