科技网

当前位置: 首页 >IT

角色扮演骗贷款如何揪出一个不还钱的骗子

IT
来源: 作者: 2018-09-06 13:19:35

  “角色扮演”骗贷款:如何揪出一个不还钱的骗子

  本文作者:李勤

  导语:角色扮演?NONONO,不是你们想的这类……请纯洁一点。

  本文作者:雷锋络安全专栏作者李勤

  角色扮演?

  NONONO,不是你们想的这类……

  请纯洁一点

  ----讲正事分割线----

  不久前,国内反敲诈服务商Maxent猛犸反敲诈对外宣布,已于2017年3月完成由DCM领投的5000万人民币A+轮融资,A轮投资方祥峰投资此轮继续跟投。本次融资后,Maxent猛犸反讹诈将继续重点上金融业务反欺诈领域发展。

  然而,让我印象深入的不是融资多少,投资人如何在演讲台上为猛犸背书。而是几个小时的融资发布会结束后,猛犸CEO张克约请的一个外地合作伙伴A在参与完全场活动后,很给面子的继续等待正在和其他佳宾聊天的张克,在A身旁的是A的另外1合作厂商B,B的业务与猛犸有若干竞争关系。

  让人出乎意料的是,在我询问他的参会目的时,B很实诚的告诉我,他很佩服猛犸的ID系统,能在那么多弱相干的标签下,从各种看上去没法辨别的身份关系中,准确辨认与发现哪些人有金融讹诈风险。

  能让友商也这么感兴趣,这家公司一定有过人之处。

  很想知道这个秘密

  所以,最近我与张克约了一次采访,追踪了这个让猛犸友商也感兴趣的点——猛犸如何揪出一个不想还钱的骗子。

  本文作者:雷锋(公众号:雷锋)络安全专栏作者李勤

  ----这次真的要讲正事了----

  这个故事要从一则讲起。

  几个月前,深圳警方一窝端了一伙欺骗团伙,其中有个女骗子具有超高的“角色扮演”技能,与三个大龄未婚多金女青年上谈起了恋爱,目的不言而喻。

  固然,这个女青年业务能展开成这样,我也是服气的。

  我就没有这样的撩妹技能

  银行和各种线上借贷平台遇到的骗子和这个女骗子有类似的技能:

  他可能会伪装成一个收入稳定的医生,最近由于购房装修手头紧张,然后在A贷平台贷款;

  他也可能变身为一个建筑工地的工人,最近老板资金周转紧张,工资暂时不能到帐,儿女需要学费,然后从B平台贷取一笔资金;

  他还有可能一次性“变性”为一个妙龄大学生,需要消费贷款购买最新的包包和化妆品。

  他也许是一个非职业的多头借贷人,月收入5000元,但是手头紧张,所以从多个平台各贷了5000元,然后“情非得已”地不想还款,也无法按时还款。

  穷

  他也可能是一个职业的借贷中介。比如,某地某市场里,终年混迹一群无工作的人,身上的钱只够委曲吃饭,每晚靠吧的8块钱一晚包夜度过,等待第二天工头发来各种活计。突然有一天,这个借贷中介过来,只要求你有身份证,宣布一个天大的“好消息”:把身份证拿过来,他帮你贷款,贷款到5000元,他分1000元,剩下的4000元给你。

  事实上,这群人暂无还款能力,因此,这类一笔笔的贷款就成了坏账,日积月累,或突然爆发,压垮了一家家线上贷款平台,或破坏了一家大银行的商誉。

  这些悲催的例子其实都是在说一件事情——

  为了扩大生意,银行们和线下借贷平台都瞄上了做线上借贷平台。从实际操作流程看,有过线上借贷经验的人应当知道,线上借贷流程比拿着各项资料去银行与客户经理面谈要简化很多。也因此,客户经理再也不是手持一份客户的个人征信报告,再进行一轮复杂的社会关系调查,各种流水和资产审核,花上一些时间面谈来判断这个人到底能不能还款。

  他们可能只需要一张身份证照片,一些简单的个人信息,就可以获得一个贷款“客户”。但是,这个“客户”是不是真的会还款?是否是要把这笔款贷给这个“客户”?平台想要知道这些问题的答案,这就是猛犸要解决的问题之一。

  平台固然也不傻,线上生意做久了,总会有大量的数据产生。

  你可能天经地义的想:大量的数据会产生用户画像,从而不就肯定了一个人的还款能力?

  话都让你这么说了我特么还说啥

  事实上,平台比谁都想提高风控能力,但现实很骨感。大量的数据产生后,平台面临了这些问题:

  1.业务量大,产生的数据量很大,处理起来很麻烦,怎样知道哪些有用,哪些没用?

  2.获得的数据中,非结构化数据混在其中,常人没法处理,需要大量数据专家。

  3.碰上专业的讹诈团伙,你怎么办?比如,门店提供贷款买业务,销售员却贴了大大的标语:助贷。销售员和顾客合伙骗贷怎么办?

  要回答这些问题,首先要知道“谁是谁”。

  比如,上贷款中,一类现象十分严重:盗用用户信息进行贷款。

  “在一项交易进行时,会产生一堆的联系点,比如,我用我的发起转帐交易时,转了多少钱?转给谁?在哪个IP地址发起的交易?都是联系点。在不同的地方、不同的IP地址,我都可能发起不同的交易。所以,我认为数字化业务的核心是做数据平台时,以人、装备和账户为核心,建立整体的数据平台,在这个基础之上,再去做分析、大数据、机器学习。”张克说。

  猛犸本身不产生数据,也没有削尖脑袋想钻进数据江湖。

  依照张克的说法,创业公司冲进这个领域要面对艰苦的竞争,还不如做好手头的技术,因此,他们与诸葛io、talkingdata等公司合作,引进第三方数据,同时把自己的技术下沉到每个客户的运用中,梳理基于他们的应用搜集的数据。

  专心打造一项技术,让自己足够强,强到与客户的运用相匹配时,可以像一股细细涓流,丝毫不产生震荡的影响,这就是猛犸的策略之一。

  在费心极力地搜集终端、用户、账户、业务和第三方数据后,还有关键的一步是让数据“说同一种语言”。因此要对数据进行整理,实现语义的统一,再在感知能力这一块,对装备、渠道、用户、产品和交易之间的关联进行特征抽取与建模。

  “在机器学习里,如果机器学习是一个金字塔,塔尖是模型和结论,效果却是由塔的基座来决定。数据基础决定效果,上面的模型都是尽可能接近塔尖——所能够预设的天花板而已。”张克冷静而克制,他其实不迷恋1座雄伟的金字塔塔尖的登顶,而是清晰地看到什么是基础,到底每一层能发挥甚么作用,而自己又能看到怎样的风景。

  那末,到底是什么在支持猛犸进行智能风控?张克介绍:

  第一,IT系统。现在业务迁移到互联,最基础的是要知道做业务的现场是什么?如果犯法了,要知道犯罪现场,交易则要知道设备现场。

  张克称,猛犸的设备指纹技术与其他厂家相比,并不是做做主动式指纹,而是做被动式指纹。

  被动式指纹的优点在于能买通,比如,用、内嵌浏览器访问一个服务,其他厂家无法辨认是否是来自于同一个设备,但是被动式指纹都能够买通。一旦买通,就可以更好地建立顶层数据集。

  第二,异常检测。猛犸把它分成4类,做了4种不同的计算框架,只要客户提出来,最少一天,最多一周,就能根据业务需要、业务场景把新的计算工程放进去,然后检查用户行动异常。

  在异常检测上,猛犸做了统一量纲。如果一个人一天登录了10次,数值有异常,这是一个特点。还有一种场景是:同样一个人,两次交易之间相隔了一小时,但地理位置相隔了一千千米,这个也是异常特点。

  但是以上层模型用的这两个异常特征其实风马牛不相及,根本不是在一个框架里面讨论问题。异常统一量纲后,根据概率散布,猛犸分析出来的结果是,所有的分布都在1和1000之间,用起来非常简单,这种模型对使用便利性而言,是巨大的提升。

  还有一个好处是冷启动,你做模型时常常碰到一个问题:如果不给我数据,怎样才能试出一个可用的模型?

  还有一点,在反敲诈里,数据本身就有很大的问题:标注数据非常希少,数据本身是非饱和数据,一个数据的数据集可能有几千个不同的维度,这几千个维度在所有的数据里不一定都有。

  在这种情况下,用监督式的方法很难做,做出来的模型效果也很差,所以猛犸就采用非监督的方法,第一,能冷启动,第二,在标注数据比较少时,可以较快地主动发现一些敲诈。用这类异常做聚类,也会更加准确。

  第三,行动生物辨认。生物辨认现在也是一个很火的领域。很多供应商在做指纹、声纹、人脸辨认,而且做得都不错。但是,还有一个问题:它是N次检测,每次检测时,用户会知道你调用了指纹检测,或调用了人脸辨认的检测,因此,存在两个问题:

  1.影响用户体验。

  2.黑客会知道你在用甚么手段在找他。

  所以,女朋友趁着男朋友睡觉时,拍一张照片,或拿在他脸上照一照就能够贷款,有很多这类类似的破解手段。

  现在还有一种方法——用行动做生物检测,而非物理、生理的方式做生物检测。

  比如,你手里拿着一个iPhone6,如果是右撇子,滑动的位置,更大的几率是靠近左边。如果是左撇子,滑动的位置大概是靠近右侧。靠左还是靠右,和上下的位置,在一定程度上会反映出手掌的大小。在输入时,可以检测出手指的力度、大小。

  这些都是一些弱因素,并不能通过一个因素直接判断这个人是谁。但是,当一系列弱因素结合在一起时,很容易判断出来,在这个时间用特定的1台的人与过一段时间后再用特定的同一台的的人是否是同一个人。

  这种判断的好处是:这是一种基于行动的生物辨认,辨认背后操作的人会不会有变化。对黑客而言,他不知道你在用甚么手段,就算他知道了,把我的偷走了,但也很难在用户的上模拟用户真正的使用行动。

  对用户而言,对用户体验的影响很小,由于用户根本没法意想到。现在已有很多国外的创业公司在做这类技术,丹麦最大的一家银行在几年前就已部署这类技术。

  ----正事讲完----

  愿天下无骗子

  +

  借钱要还

  本文作者:雷锋络安全专栏作者李勤

  文章来自络 版权归原作者所有,如有侵权请告知

北海彰泰观江海
北海彰泰红树湾
北京富力和园

相关推荐