论坛 产品库 视频 专题 CIO俱乐部 Windows8 实验室 CMO俱乐部 案例

英特尔马子雅:开源技术助力大数据发展

发布时间:2015-06-17 15:16:00 来源:比特网 作者:徐征
关键字:cio

  2015年6月16日,第十三届中国国际软件和信息服务交易会在大连世界博览广场启幕。本届软交会以“数据智能 跨界互联”为主题,展览规模共3万平方米, 700多家国内外参展厂商,近百个海内外团组参加展会。在17日下午的“软件和信息服务业政策趋势论坛”中,英特尔软件与服务事业部大数据技术中心全球总经理马子雅发表了主题演讲,以下为演讲实录:

  我今天演讲的主题是开源大数据的趋势。大家都知道,大数据是目前全球发展最快的行业,没有质疑。在过去的一年时间里,它的递增速度达到了60%多,在未来五到十年里,每年各30多速度递增,经过过去几年的发展,大数据已经有了一些不错的技术的完善,可是面临在我们前面的依然还有一些大的挑战,比如说怎么样更好的提高大数据的数据安全性,怎么样扩大大数据跟云计算之间的结合,怎么样更好的提高大数据数据运算的速度等等,经常在开源社区里,会有人说,每年都有很多的开源社区的一些项目出来,我怎么知道,我做的项目会对未来大数据的发展起到非常重要作用呢?根据过去几年的努力,认为在大数据领域有五个方向,会对它未来得走向起到非常关键性的作用。

  第一是数据的安全性,其次是分析应用领域,然后是SPARK,再其次是存储,最后是云实现,这其实是没有先后次序的。首先看一下数据的安全性。第一是认证,什么样的人可以进入到大数据系统,其次是授权,什么样的人可以接触到什么样的数据,第三是数据保护,我的数据无论是在存储的状态,还是在传输的状态,怎么样保证是安全的,不会被泄露,被侵害,第四是审查,要知道我的数据从哪来,怎么样被利用,使用的过程是不是安全,这些都是大数据安全的重要考量。

  其次看一下分析应用领域。分析应用对大数据几乎是最重要的方面,因为我们做大数据最终的目的是转化为我们的知识,做一些更好的商业决策,所以分析应用是非常重要的因素。通常我们在提到分析应用的时候,可能你顺间的反应是在云计算里的分析应用,在数据中心的分析应用,现在尤其智能设备的出现,包括移动互联的出现,现在设备有多种多样的形式,比如说从苹果到PC,到IUT,各种各样的中端设备的出现,现在开始提到客户端的应用程序的功能,除了这个(英文)跟云端大数据中心的(英文),包括还有一个走向,就是服务层的应用程序。这是它重要的走向。除了刚才的三个方面,还有是适时分析也变得越来越重要,因为很多时候我们看到实际生活中的例子,我们叫智能城市,智慧城市,你会说现在有很多假的车的套牌,怎么样适时的观察到,并且能够有一些实际的问题,有一些假的车的牌照,要求地进行迅速的适时的处理,目前在开源方面,我们主要的工作是集中在适时分析程序里面,我们的工作主要集中在以下几个方面:

  第一、是ML是更加优化的机器学习的算法,另外一个模块是GR(英文),让它规模化。第三是怎么样让适时应用程序的编成更加容易,这里有两块是努力推进的,一个是(英文),就是我们知道很多的应用程序,是用R这样的语言来写的,对大数据的系统都不是的熟悉,SP(英文)的功能不需要了解数据的大数据是怎么操作的,还可以接着写R的应用程序,可以自动的跑在大数据的运行环境上,当然也会有的程序员会说,我不了解R,但是我知道CG,刚刚开源,这个星期刚刚让CG开源,这个CG这个项目,可以让一些对CP非常了解的程序员,可以在大数据平台上可以很迅速的写出一些适时应用程序。大数据平台出来的时候,很多人做(英文),其中一个数据处理的莫普,叫(英文),M本身数据处理的速度,不是非常令人满意,这是为什么慢慢的SP开始进入人的视野,它是内存进行数据分析,因为运行速度的优势,在一些特定环境下,运行速度可以达到100倍,在过去一两年时间里,开始越来越多的人使用它喜欢它。

  SPA一开始的发展,主要起源于(英文),由加州大学主导研发的项目,由于接受程度越来越火,开始慢慢的演变成一个大的生态系统,也是跟HD是相符,现在谈到SDOR规划,包括(英文),应用程序的模块,功能会变得越来越完善,越来越丰富。第四个模块是存储,因为我们知道大数据除了做一些分析处理之外,首先要存在某一个地方,所以目前无论我们是SAP的生态系统,这两个联合起来的生态系统,HDFS还是对普遍被接触的存储的解决方案。我们知道HDFS本身的意思(英文),由于过去几年,硬件技术的迅速发展,包括RSA,包括网络的技术,以前我们说1GB的技术,现在达到了40GB,网络的速度也越来越快,另外的是存储的技术,以前对存储希望看到,我们的数据跟处理它的这个程序是运行在同一个节点上,由于硬件技术的发展,现在我们已经对(英文)几乎没有要求了,所以新的趋势在存储方面,就是分布式的存储系统。这是一个未来的发展趋势。

  第五点是云实现,怎么样让大数据跟云计算有比较良好的完善的自动的,这样的一个结合,这也是目前开源的重点工作之一。目前在开源有一个项目,这个项目值得推荐给大家,大家可以看一下。刚才讲了五个未来得发展方向,英特尔非常注重跟开源社区的合作,目前对全球软件代码的贡献排了第四,在中国最领先。尤其是特别重要的模块,在全球的贡献,或者是前两,或者是前三。除了代码的贡献,还花了很多经历去扩大跟中国的开源同行的交流,从年初到现在,组织了四次聚会,目的是希望对SAP生态系统更感兴趣的同行跟我们有一些交流的机会,同时我们也跟加州大学合作,第一次让AN在中国落地,很多做大数据的,尤其是在开源社区的人是非常喜欢来到这样的交流平台。这也是通过我们的努力,我们让AN第一次在米过境外落地,我们也是希望看到,中国跟国际同行更多的交流。最终做大数据除了跟开源的合作,最终是要为日常生活服务的,我们也花了很多的努力,去跟中国的企业和高校进行交流,跟中国的高校也有一些非常密切的合作关系,这边主要是讲的,跟南京大学黄老师的团队,包括我们一些做的研究项目,包括学生到公司实习,留在我们的部门。希望通过这样的交流方式,跟中国的高校和科研单位有更高的交流,除了跟南京大学,还跟比如说上海周边的一些其他大学,交大、复旦、北大 、清华都有不错的关系。


比特微信账号
比特微信账号

微信扫一扫
关注Chinabyte

返回首页 长微博 返回顶部