银行业数据科学家的 6 条经验教训
为什么我的第一份数据科学工作与我预期的不一样
一个扎心的现实教训是:数据科学并不像你所期望的那样。
原本希望在计算机科学、统计学和机器学习领域工作。运用新方法获得独特见解,实现一切自动化。简而言之,最终成了这个职业炒作的牺牲品。
我想和你们分享一下。希望我们能够摆脱炒作,提高你对数据科学家工作的理解。
第 1 课:逻辑回归大有裨益
我的工作涉及建立信用风险和欺诈模型。这些都是有影响力的模型。它们被用于大规模自动化贷款。我说的是每年价值数十亿的应用程序。你可能会认为,在如此高的风险下,会从事先进的机器学习。你错了。
我专门使用逻辑回归来构建模型。我并不是唯一一个这样做的人。从银行业到保险业,金融界的很多领域都依赖回归。为什么?
因为这些模型有效。
回归模型的表现已经足够好了。它们也被银行广泛理解和接受。要采用一种新算法,它不仅要优于回归。改进还必须证明解释算法的努力是合理的。
通过回归分析,我最终得到了具有 8 到 10 个特征的模型。每个特征都必须得到彻底解释。非技术同事必须同意他们捕捉到了现实中存在的关系。
回归分析很简单。黑盒模型会更难解释。当然,可以使用SHAP或PDP 和 ICE 图等方法。问题是它们不会给我同样的确定性。我还需要解释我用来解释模型的方法。
这真让人失望。我学了很多关于随机森林、XGBoost 和神经网络的知识,很高兴能应用这些技术。我记得我的一位资深同事说:
“忘掉那些花哨的模型吧”
她是对的。许多数据科学家永远都不需要它们。
第 2 课:机器学习有许多应用
不那么令人失望的是,会意识到机器学习是多么有用。当我看到银行业的所有应用时才明白这一点。举几个例子:
- 信用风险——预测因财务困境而导致的违约
- 欺诈——预测客户是否不打算偿还贷款
- 预区域——识别陷入财务困境的客户
- 流失——识别打算离开银行的客户
- 营销——找到最适合推销产品的客户
这些模型用于实现整个银行流程的自动化。研究这些模型让人兴奋不已。会让人有机会创造一些对世界影响比独自完成更大的事情。这给会给人很大的动力。
教训 3:处理数据是一项艰苦的工作
在学习中建立模型是一件轻而易举的事——干净的数据集、预先设计的特征和自动超参数调整。花几个小时就获得了 99.9% 的准确率。想象一下,当实际工作中三个人组成的团队花了 8 个月的时间建立一个信用风险模型时,会有多惊讶。8 个月!
大部分时间都花在了构建数据集上。这不仅包括模型特征。我们必须证明所有建模决策都是合理的。为此,要纳入抽样和代表性分析、分割分析、公平性分析和模型评估所需的所有变量。
必须从头开始构建许多变量。底层数据字段分布在多个表中,且文档不一致(如果有的话)。构建完成后,就开始调试。一想到调试这件事,我就一阵头疼。
如果犯了错误(确实犯了),那么以后就会带来很多麻烦(确实如此)。为了尽量减少这种麻烦,要进行了大量测试。问题是没有任何东西可以与我们的模型特征进行比较,能做的最好的事情就是:
- 理智检查。这涉及可视化特征趋势并使用领域知识对其进行验证。收入突然下降是否合理?
- 单元测试。这意味着手动计算一些客户的特征值。
数据科学这份工作并不是听说的那样迷人,它很无聊。然而,这是值得的。看到最终的模型会让人感到自豪。这是自己的孩子,它会被应用于去批准数千笔贷款。
经验 4:领域知识和软技能是关键
很快会意识到非技术技能有多么重要。沟通是关键。没有类似考试问题那样措辞清晰的任务简介。有时,任务描述得杂乱无章。你不会想到你的工作职责竟然是理解会被要求做什么。
需要提高沟通技巧和领域知识,以有效地运用技术技能。
随着积累了更多经验,这变得越来越容易。更具体地说,随着对银行业有了更多的了解。一开始,甚至会不知道要问什么澄清问题。有很多行话和 TLA(三个字母的缩写)。一旦掌握了这种语言,就变得轻松多了。
教训 5:不要被花哨的标题所左右
数据科学家是一个热门职业。它也只是一个职位名称。你可能要完成各种各样的任务。公司知道人们想成为数据科学家,他们会适当地推销他们的职位。
我和一群应届毕业生一起开始工作。我很幸运,最终从事的工作属于数据科学。一些同学就没那么幸运了,他们只会 SQL 和 Excel,应该被称为数据分析师。
回想起来,值得警惕的一点是,部门里所有资深员工的头衔都是“量化分析师”。新来的初级员工都被称为“数据科学家”。工作突然变了吗?没有。
第 6 课:工具很重要
一种普遍的观点是,你应该关注流程而不是工具。我认为这来自从未使用过「过时技术」的数据科学家。我同意流程很重要。获得实施这些流程的最佳工具也同样重要。
旧工具正在消耗殆尽,它们在银行业也大量存在。
我很早就接触 Python,还有 Ruby。Python 中,只需几行代码,你就能构建复杂的模型和交互式可视化。在银行业有 SAS。SAS 能完成 Python 的一小部分工作,但需要付出很多努力。我觉得这一点就让人很沮丧。明明可以用开源工具做得更好,但是却根本无法访问它们。
使用旧工具会让你的技能变得不那么有市场价值。这个行业发展很快。当我开始申请新工作时,我意识到了这一点。95% 的数据科学工作申请都提到了 Python、Pytorch、TensorFlow 等工具……公司想要有最新技术经验的人。
关于银行业的欺诈分析,建议你去看看我的人工智能BI核心知识以及AI企业项目实战课,也可以直接到橱窗购买:
另外,基础很重要。万变不离其宗,不要去盲目追逐当下流行技术,现扎实完成底层知识和逻辑的建立,可以去查看我的系列基础教程:
「AI秘籍」系列课程:
希望这篇文章对你有所帮助!你还可以阅读我的其他文章,或者查看有关企业 AI 实战项目的教程,相信会让你拥有更多收获。
银行业数据科学家的 6 条经验教训