您好,欢迎访问长三角智库平台

上传文档

当前位置:首页 > 长三角智库 > 新基建 > 大数据中心

【大数据】大数据在信息安全领域的应用分析(下)

  • 管理员
  • 36 次阅读
  • 0 次下载
  • 2020-11-11 11:54:58

还剩... 页未读,继续阅读

免费阅读已结束,点击付费阅读剩下 ...

¥ 1 元,已有36人购买

付费阅读

阅读已结束,您可以下载文档离线阅读

¥ 1 元,已有0人下载

付费下载
文档简介:

大数据在信息安全领域的应用分析(下)2019-08-272.3.2数据处理数据处理又分为离线处理、在线处理、流式处理。这里仅简单地对比一下基于文件系统、基于内存和流式处理3种方式。基于文件系统的数据处理是类似于基于Hadoop的MapReduce批处理技术,主要通过磁盘和网络移动数据,每次数据处理之后的结果存入磁盘。这种处理方式有很大的局限性,因为要磁盘读取,并通过网络传输,处理速度相对较慢,比较适合于离线的批处理操作。基于内存的数据处理是近几年非常流行的Spark的工作方式。为了保证计算的高效性,Sprak将所有的工作提交至内存中进行处理,计算过程中Spark会将数据处理的各个环节的中间结果进行保留,通过这种高效的迭代方式,Spark可以在相当短的时间内完成数据处理工作。为了简化机器学习的实践复杂度,Spark在项目中集成了MLlib库,MLlib由一些通用的算法和工具构成,机器学习中涉及诸多迭代式算法,这与Spark的内存式处理可以很好地契合。大数据处理和机器学习的发展使得Spark在几年的时间里迅速发展成为批处理的标配组件。关于流式处理方式,目前流行的数据处理框架有Storm和

管理员
管理员
  • 60287

    文档
  • 22.4

    金币
Ta的主页 发私信

60287篇文档

评论

发表评论
< /6 > 付费下载 ¥ 1 元
Copyright © 长三角智库平台 All Rights Reserved. 沪ICP备20011950号-1
×
保存成功