您所在位置: 网站首页 / 文档列表 / 行业软件 / 文档详情
Spark技术内幕.pdf 立即下载
上传人:鸿朗****ka 上传时间:2024-09-04 格式:PDF 页数:30 大小: 金币:10 举报 版权申诉
预览加载中,请您耐心等待几秒...

Spark技术内幕.pdf

Spark技术内幕.pdf

预览

免费试读已结束,剩余 20 页请下载文档后查看

10 金币

下载文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

Spark技术内幕张安站2015什么是Spark?•分布式计算框架•基于内存的调度和运算模型•兼容Hadoop生态环境–数据存储格式–WorkswithHdfs/Yarn/Hive/Hbase/kafka…etc.•丰富的应用场景–batch/streaming–SQL/机器学习/图计算快速发展的生态环境•快速从ApacheIncubator项目毕业成为Apache顶级项目•大数据解决方案提供商的支持–Cloudera/MapR/Hortonworks/Pivotal/SAP…–华为/星环科技•应用–百度/阿里/腾讯/爱奇艺/优酷/京东…•2014年大数据领域最活跃的开源项目核心组件代码规模BDAS整体架构Spark的目标•高效和通用的编程模型–相比MapReduce,更加适用于两种类型的应用•迭代算法类(机器学习,图计算)•交互式数据挖掘–相似的编程接口•良好的用户体验•编程效率:基于Scala的核心模块,并提供Java/python编程接口•功能强大的API,丰富的操作算子•交互式的解释执行接口(调试,学习)相似的编程接口valconf=newSparkConf()valsc=newSparkContext(conf)vallines=sc.textFile(args(1))valwords=lines.flatMap(_.split(""))valresult=words.map(x=>(x,1)).reduceByKey(_+_).collect()valconf=newSparkConf()valssc=newStreamingContext(conf,Seconds(1))vallines=ssc.textFileStream(args(1))valwords=lines.flatMap(_.split(""))valresult=words.map(x=>(x,1)).reduceByKey(_+_).collect()ssc.start()仅仅是因为内存?ClientStepStepStepStepStepClientStepStepStepStepStep从WordCount开始•代码实现•RDD•资源分配•任务划分•任务调度•任务执行–Shuffle的具体实现WordCount的代码实现RDD•Resilientdistributeddataset,弹性分布式数据集•不可变的,按分区组织的数据对象•支持多种转换+动作•可以通过多种数据源创建RDD•缓存+检查点•容错,数据本地性,可扩展性RDD的缓存BaseRDDTransformedCacheRDD1lines=spark.textFile(“hdfs://...”)Workresultsererrors=lines.filter(_.startsWith(“ERROR”))messages=errors.map(_.split(„\t‟)(2))DrivetasksBlock1cachedMsgs=messages.cache()rActioncachedMsgs.filter(_.contains(“wordseg”)).countCachecachedMsgs.filter(_.contains(“wordrank”)).countWork2...erCache3WorkBlock2erBlock3RDD的不同依赖窄依赖:宽依赖:map,filtergroupByKeyjoinwithinputsco-unionpartitionedjoinwithinputsnotco-partitioned资源的分配任务调度RDDObjectsDAGSchedulerTaskSchedulerWorkerClustermanagerThreadsDAGTaskSetTaskBlockmanagerrdd1.join(rdd2)splitgraphintolaunchtasksviaexecutetasks.groupBy(…)stagesoftasksclustermanager.filter(…)submiteachretryfailedorstoreandservebuildoperatorDAGstageasreadystragglingtasksblocksagnosticdoesn’ttostageknowaboutfai
单篇购买
VIP会员(1亿+VIP文档免费下)

扫码即表示接受《下载须知》

Spark技术内幕

文档大小:

限时特价:扫码查看

• 请登录后再进行扫码购买
• 使用微信/支付宝扫码注册及付费下载,详阅 用户协议 隐私政策
• 如已在其他页面进行付款,请刷新当前页面重试
• 付费购买成功后,此文档可永久免费下载
年会员
99.0
¥199.0

6亿VIP文档任选,共次下载特权。

已优惠

微信/支付宝扫码完成支付,可开具发票

VIP尽享专属权益

VIP文档免费下载

赠送VIP文档免费下载次数

阅读免打扰

去除文档详情页间广告

专属身份标识

尊贵的VIP专属身份标识

高级客服

一对一高级客服服务

多端互通

电脑端/手机端权益通用

手机号注册 用户名注册
我已阅读并接受《用户协议》《隐私政策》
已有账号?立即登录
我已阅读并接受《用户协议》《隐私政策》
已有账号?立即登录
登录
手机号登录 微信扫码登录
微信扫一扫登录 账号密码登录

首次登录需关注“豆柴文库”公众号

新用户注册
VIP会员(1亿+VIP文档免费下)
年会员
99.0
¥199.0

6亿VIP文档任选,共次下载特权。

已优惠

微信/支付宝扫码完成支付,可开具发票

VIP尽享专属权益

VIP文档免费下载

赠送VIP文档免费下载次数

阅读免打扰

去除文档详情页间广告

专属身份标识

尊贵的VIP专属身份标识

高级客服

一对一高级客服服务

多端互通

电脑端/手机端权益通用