科技网

当前位置: 首页 >智能

明朝万达张静大数据时代的数据安全

智能
来源: 作者: 2019-01-09 17:01:45

通信世界消息(CWW)近日,由人民邮电出版社主办的“2017第四届中国国际大数据大会”在北京新世纪日航酒店举办,本届大会以“数据驱动,智能引领——共享数字经济新机遇”为主题,聚焦大数据全产业链创新与发展,务实推进大数据在各行业的落地应用,深化产业交流对接,引导产业与行业的融合合作,助推大数据产业务实健康发展。在大会期间,明朝万达副总裁张静发表了“大数据时代的数据安全”主题演讲。

演讲实录

首先,感谢主办方给我们这个机会邀请我们来做关于大数据时代下的数据安全分享,同时我也特别感谢今天在台下的听众,下午比较困,能坚持到现在很不容易。

我们公司叫明朝万达,很多朋友第一个问我的事,你们跟万达有什么关系,我说没有关系,他们都不信,我们老板真的姓王,但不是王健林。

我们为什么叫万达呢?我们的英文意思是梦想的意思,这个企业我们是清华的师兄弟在一起做的一个安全企业,抱着一个梦想想对中国的络安全行业做一些事情,所以这是最初创业的来历,后来翻译成中文就叫万达。前面加了明朝,我们跟王健林的万达,我们辈分比他高,他是中华人民共和国时候,我们是明朝时候的。

今天讲的是大数据时代下的安全,大数据时代下安全问题有哪一些呢?这是我今天要跟大家分享的,安全是非常专业的一个领域,你们平时去银行办一个银行卡会有卡号输入一个密码,在ATM机上取款输入密码,那个东西是密码吗?我问了很多人,都回答我输的是密码,包括银行柜员告诉你输一下密码,其实那个东西不是密码,那是口令。所以你们就知道,我想通过这个小小的测验想告诉你,实际上想告诉你安全关系到老百姓方方面面,实际上大家并不懂。

第一个,我讲一下大数据时代第一个变化,就是数据会像有形资产一样成为企业非常重要的资产,我们知道在传统行业里,在过去你的一个企业的价值,你有一栋房子,一辆车,你各种各样的资产,现在随着互联的发展,尤其是这两年移动互联的飞速发展,企业积累的数据对经济的方式会产生一个重大的变革,就是你的数据会变得越来越重要的一个资产。数据越来越重要了,络空间的犯罪实际上也是越来越重要,因为可能在座大众不是从事安全行业的,不大清楚,事实上你们看到的是表面的数据,还有一个地下很庞大的黑色的产业链,围绕着数据做各种各样的犯罪的活动,这一块危害非常大。我跟大家说一个比较真实的数据,我们知道这历年打击电信诈骗形成的非常多,你们知道每天电信诈骗靠络犯罪大概有多少起案件?资金损失有多少吗?据连续三年的统计,明天靠电信诈骗打还有络上的钓鱼,上恶意络传播每天大概一千多起案件,每天涉案基金是1点多亿,所以大家就知道络安全有多么重要。数据的泄露非常严重,会给企业带来非常大的影响,对企业的声誉、资金会带来极大的影响。

第三个按理说RSA Security ID身份前别系统信息被盗,这件事给它带来的损失要超过6000多万美元,当然还有很多这样的案例,比如说索尼的案例。总之,如果发生数据安全的泄露,会给企业带来巨大的损失。

第二点,大数据时代数据安全已经成为安全防控的核心,做安全这个行业可以把整个安全分为两大块,一大块是做一些边界的防护,比如说传统的一些IDS还有防火墙,还有包括身份认证,还有一大类企业就像我们,我们做的主要叫数据防护,我们的焦点或者说我们企业的理念认为数据是大数据时代下最重要的资产,所以你只要用各种各样的基础措施通过加密,权限身份认证把数据防护好了,这样会从根本上解决企业的安全问题。数据安全也不是新鲜的事物,以前也有,大数据世代友几个变化。

第一个攻击目标在变,数据成为安全的防护核心,传统的黑客攻击的目标,其实传统的黑客大概分为几个层次,一是一般的小黑客没有组织的,还有一种是有组织的犯罪形式,还有一种是国家的罪犯,传统的黑色产业可能是编一些木马病毒来控制你,现在在大数据时代下,因为互联很发达,数据很多了,所以黑客的攻击目标就转向如何窃取你的数据,搜集你的隐私,这是第一个变化。

第二个变化就是攻击的方式也在变化,以前络安全攻击方式比较简单,做一个病毒和木马,你们现在用电脑就会发现现在很少有病毒了,现在更高级了,他们综合用各种技术手段,从络、主机还有终端等等,现在安全圈前几年应该有一个很热的词叫APP攻击,所谓APP就是高级持续攻击,他就是利用了综合的手段最后达到窃取数据的目的。

第三个就是攻击成本在变,以前做安全的行业其实非常窄的,比如说我们做我们的产品非常底层,希望把Windos底层驱动做一些逆向工作,逆向完了之后再研究它,研究透了之后才能做一些安全防护软件,所以它的技术难度要高,现在在大数据时代下还有一个变化,就是成本降低了。就是络的传播导致现在有很多工具,我前两天看了一个,就是有一个安全企业你们如果关注会知道,他们做了一个叫黑客的培训,培训几天怎么让你掌握一些简单的技能,实际上就有点像打一个广告只要998,三天黑客渗透学回家。现在这个产业起来了之后,很多地下黑产把一些攻击的脚本,还有一些攻击的方法做各种各样的工具,比如说我这儿列了一些要扫描你,以前你要手动很费劲的,现在有各种各样的工具,你要做络或者做密码破解等等这样的工具非常多,这样的话,现在整个互联出现了很多所谓的脚本小的,他们可能简单的学习一下,但是不会对我们的络安全带来很大的危害。

第四个就是攻击的技术体系在变化,以前传统的IT架构就是我们用一些Jave的后台,现在大数据时代就是传统的实际上也是与时俱进的,就是我们发现以前经常有注入,实际上现在很多厂商打补丁了,现在大数据时代下,我理解所谓的大数据,实际上技术主要是以Hadoop为代表的生态,它有很大的生态圈,这个是对大数据时代之下技术体系一个很大的转变。

在这个转变过程中,有一个问题是什么呢?Hadoop整个生态体系对安全考虑非常少,原生的Hadoop体系没有安全模型的。Hadoop设计当时只是为了解决数据的分布式计算,但是他没有考虑数据的安全模型。Hadoop的节点之间的认证,实际上他以前是没有认证的,当然,后面到了2.0之后可以认证,之前Hadoop最早出来,度它的攻击非常简单,因为你随便可以伪造一个节点装上Hadoop就可以。

我讲Hadoop这个例子就是想说明一个事,在大数据时代整个攻击的技术体系也在变化,这就是大数据,总之,在大数据时代下由于诸多变化中整个数据安全整体风险在上升,怎么去应对大数据时代下的不断上升的风险呢?我这儿提了利用大数据技术来构建数据安全体系。

第一个就是加强顶层设计,构建以数据为中心的安全保障框架。以前我们在做安全的时候,实际上很少以数据为中心,把数据放在中心来做安全体系规划,所以第一点没有很好的顶层设计和规划,导致后面会发生一系列的安全问题,我们提出来以数据为安全做信息安全保障方向,从数据资产管理,数据资产安全控制,涉及到整个数据的生命周期,从它的创建、使用、传播、存储等等每个环节从一开始就要考虑用户体验这是第一个措施。

第二个就是要构建实现动态防御,集中管控的安全措施,现在安全面设计的非常广,如何去防护它呢?如果从单点上很困难,所以我们就提出来要动态防御,第二个是要从每一个点采集,从络、主机、终端各个层面把它的数据抓过来。形成全面立体的数据源,再根据一些算法,后面我会讲几个案例根据这些海量的数据我们再进行一些安全建模,通过这个模型再发现一些安全的隐患和威胁,这个在以前很难做到,因为以前的机器处理速度还有日志的数据不足以支撑你做这件事,在大数据时代下可以做这样的事情。

这个案例是用机器学习发现恶意邮件,以前发现恶意邮件要想发现邮件是恶意邮件,首先要有一个库,把所有的恶意邮件收集起来,从库里提一些特征放到反垃圾邮件系统里,下一封邮件收到了之后,他跟特征匹配一下,如果匹配中了一个恶意邮件,这种方式可以阻止大部分的恶意邮件。但是,还有很大部分如果它稍微做一些变形,或者是一种新的恶意邮件等等其他的一些情况,传统的方式就不能覆盖了。我们在大数据时代下怎么做呢?首先,我们先把邮件所有的信息特征都搜集到我们第一步要做一些特征的提取,提取完了之后,我们就会做一些建模的工作和分析的工作,建完模之后我们把机器摆在邮件前面MT的端前面,所有邮件经我们过一下,然后我们会把你发的邮件根据我们的模型去打一个分数,如果你分数高于一定的域值,就说明它可能有恶意的行为。至于什么恶意的行为呢?可能有很多类型,这是我们模型的一个草图。

我们做的这个模型我们会发现,这是一个实际的例子,我把邮箱地址全部屏蔽掉了,大家可以看到,这是一个人的收件箱会有这么多邮件,我们会发现他是恶意的,用传统的检测手段发现不了,因为他只是发了一些简单的文字内容,并没有有恶意邮件,所以用杀毒软件或者其他的反垃圾邮件检测不到的。这里面每封邮件都是一种转发,我们的机器是自动判断在短时间内做了大量的邮件转发,大概几分钟内转了二三十封邮件,这种情况只有一种可能,你的邮件被别人入侵了,当然还有其他,这个例子只是想说明我们算法的性能。

第三个就是应对的措施,就是这几年机器学习、AI、深度学习概念特别火及就是可以利用一些机器学习提升安全的性能和效果,我们是做了一个产品是做数据防泄露的。我们可以对邮件进行扫描,扫描之后可以发现里这个员工发的邮件是否泄露企业秘密,传统的邮件做法是把所有抓到的络数据做数据还原,最后生成比如说一个Word,再把Word的内容提取出来,提取出来之后做一些关键字或者表达式来匹配,这会有一个问题会漏掉很多,比如说有一个企业有机密文件或者国家有红头文件可以稍微做一些修改就变了,比如说一篇文章大概有2000字,如果用产生的MD值随便改几个字,或者改上10%的内容,这个邮件内容性质肯定变了。我们就没有办法检测,我们用了一些自然语言处理的技术做的,就是让它这个文档即便员工经过自己的,只要编的差别不是太大,可能原始文件一千字,他改动了10%或者20%做一些替换,或者把这个数据第一段挪到第二段,导来导去,最终还能发现出来,这个就比较难了,这是我们用的一个算法,这种工作传统还有一些方法用一些先把稳当做一些BM25这种也有很多方法,但是这些传统的方法有一个致命的缺点是非常慢,如果对大型企业,每年有上万或者几十万处理是来不及的,计算量太大。这一块我们用了一个文件,这是我们自己做的一个技术。我们先把文档给它做特征换,提出来N个特征,每个特征第一步先做分析,做完分析以后我们给它赋权,每一个特征都赋一个权,最底下这一块会相加。相加之后给他取一个函数,最后得到文件指纹是10011这样的数,随便改变中间任何一个特征,对于最右边的整体数字没有影响,也就是说,你改变这个文章只要你别变的太大,变个10%到20%也没有关系,同样可以查出来是你。而且,我的制革很短就64,8个字节,效率是非常高。

我说这个技术是我们的一个专利,也在我们的产品中应用,就是能够检出文档的泄露,而且即便是你改变了变形了仍然可以检测出来,而且还很快。我想说明大数据时代下利用机器学习和人工智能的算法,对数据安全有极大的性能提升。

最后一个部分,后大数据时代的展望。后大数据意思就是从嘎纳技术炒作曲线来看,实际上大数据这几年已经不是热点了,大数据应该是5年前的热点了,所以我理解今天我们在此开会,应该来讲都是后大数据时代,后大数据时代对于我们安全行业,我有这么几个观点:

第一,大数据、人工智能和云计算等新兴技术的快速发展,将成为未来信息化社会的基础设施和公共资源,在人类社会的日常生活中不可或缺,不再高不可攀、遥不可及、深不可测。大数据在5年前还是一个高科技,在今天就是一个普通的名词,在未来可能就像自来水在像电力一样成为一个基础设施了,我们现在很多技术已经有了。

第二,安全文化尤其是数据安全将成为未来大数据技术深入应用和前提和保障,如果不能解决好数据安全问题,则成为制约大数据发展的普及和瓶颈。现实生活中,企业构建大数据分析平台,政务数据的公开以及医疗信息的共享终将不能顺利推进。数字安全在大数据时代下越来越重要。

第三,安全产业正在从传统的架构的IT安全向大数据架构下的安全解决方案和技术产品迁移,而且这种迁移会随着国家大力鼓吹大数据技术的发展而提速。不能赶上这波技术发展朝来的公司中将会被时代发展的潮流吞并淹没。现在做安全行业也明显感觉到,因为做安全始终跟着应用跑的,现在很多应用迁移到云上,我们安全产品实际上也往上迁,比如说以前的一些安全端现在也出了云的安全端,反正传统的安全有什么,现在云上的安全就有什么,比如说防火墙现在也有云的,对安全企业这是一个很大的挑战。

第四,大数据时代,业务安全和信息安全并重的格局不会被改变,并成为安全发展的重要方向,但是掌握数据、理解数据、分析数据、例外数据将成为把安全和业务相结合的一条捷径,成为安全企业未来的核心竞争力。

以上是我今天的演讲,谢谢大家!

广州切排骨机厂家
北京温湿度记录仪
至尊棋牌代理
头脑吃鸡开发
筑志红中麻将怎么下载

相关推荐