【大数据】大数据在信息安全领域的应用分析(下)
- 管理员
-
35 次阅读
-
0 次下载
-
2020-10-10 14:34:49
文档简介:
大数据在信息安全领域的应用分析(下)2019-08-272.3.2数据处理数据处理又分为离线处理、在线处理、流式处理。这里仅简单地对比一下基于文件系统、基于内存和流式处理3种方式。基于文件系统的数据处理是类似于基于Hadoop的MapReduce批处理技术,主要通过磁盘和网络移动数据,每次数据处理之后的结果存入磁盘。这种处理方式有很大的局限性,因为要磁盘读取,并通过网络传输,处理速度相对较慢,比较适合于离线的批处理操作。基于内存的数据处理是近几年非常流行的Spark的工作方式。为了保证计算的高效性,Sprak将所有的工作提交至内存中进行处理,计算过程中Spark会将数据处理的各个环节的中间结果进行保留,通过这种高效的迭代方式,Spark可以在相当短的时间内完成数据处理工作。为了简化机器学习的实践复杂度,Spark在项目中集成了MLlib库,MLlib由一些通用的算法和工具构成,机器学习中涉及诸多迭代式算法,这与Spark的内存式处理可以很好地契合。大数据处理和机器学习的发展使得Spark在几年的时间里迅速发展成为批处理的标配组件。关于流式处理方式,目前流行的数据处理框架有Storm和
评论
发表评论