"/>
首页
全部分类
Web
SQL
Life
Basic
Spider
DevSecOps
Architecture
全部标签
文章归档
友情链接
我的瞬间
关于博主
留言板
PySuper
千里之行,始于足下
累计撰写
218
篇文章
累计创建
15
个标签
累计收到
2
条评论
栏目
首页
全部分类
Web
SQL
Life
Basic
Spider
DevSecOps
Architecture
全部标签
文章归档
友情链接
我的瞬间
关于博主
留言板
目 录
CONTENT
以下是
Spark
相关的文章
2022-05-23
SparkCore 之 内核调度
DAG DAG:有向无环图 有向:有方向 无环:没有闭环 有方向,没有形成闭环的执行流程图
2022-05-23
58
0
0
Architecture
2022-05-15
SparkCore 之 共享变量
广播变量 先将本地list对象,放入broadcast对象中,然后从broadcast内部取出,中间传输的就是broadcast这个对象 只要传输的是broadcast,spark就只会给
2022-05-15
45
0
0
Architecture
2022-05-07
SparkCore 之 RDD案例分析
jieba 库 import jieba content = "今天天气真好!" result_1 = jieba.cut(content, True) print(result_1) result_2 = jieba.cut(content, False) print(list(result
2022-05-07
51
0
0
Architecture
2022-05-06
SparkCore 之 RDD持久化
过程数据 rdd-3被二次使用,第一次使用之后,其实rdd-3就不存在了 第二次用的时ࠂ
2022-05-06
54
0
0
Architecture
2022-04-21
SparkCore 之 RDD编程
RDD的创建 SparkContext Spark RDD 编程的程序入口对象是SparkContext对象(不论何种编程语言) 只有构建出SparkContext,基于它才能执行后续的API调ஷ
2022-04-21
63
0
0
Architecture
2022-04-21
SparkCore 之 RDD详解
分布式计算需要: 分区控制 Shuffle 控制 数据存储/序列化/发送 数据计算API 等一系列功能 这些功能, 不能简单的通过Python内置的
2022-04-21
59
0
0
Architecture
2022-04-09
Spark 之 PySpark
代码实战 #!/usr/bin/env python # -*- coding: UTF-8 -*- # FileName :01_word_count.py # Author :zheng xingtao # Date :2022/3/11 13:35 import os fro
2022-04-09
53
0
0
Architecture
2022-04-05
Spark部署 之 YARN
基本原理 在已有 YARN 集群的前提下在单独准备 Spark StandAlone 集群,对资源的利用就不高 所以,在企业中,多数场景下,会将 Spark $
2022-04-05
46
0
0
Architecture
2022-03-30
Spark部署 之 HA
Spark Standalone集群是Master-Slaves架构的集群模式,和大部分的Master-Slaves结构集群一样,存在着Master单点故障(SPOF)的问题。 运行原理
2022-03-30
82
0
0
Architecture
2022-03-24
Spark部署 之 StandAlone
架构分析 Spark自带的一种集群模式 是完整的Spark运行环境: Master角色以Master进程存在,Worker角色以Worker进程存在 Driver和Executor运行于Worker进
2022-03-24
65
0
0
Architecture
1
2