" name="sm-site-verification"/>
首页
全部分类
Web
SQL
Life
Basic
Spider
DevSecOps
Architecture
全部标签
文章归档
友情链接
我的瞬间
关于博主
留言板
PySuper
千里之行,始于足下
累计撰写
234
篇文章
累计创建
15
个标签
累计收到
2
条评论
栏目
首页
全部分类
Web
SQL
Life
Basic
Spider
DevSecOps
Architecture
全部标签
文章归档
友情链接
我的瞬间
关于博主
留言板
目 录
CONTENT
以下是
PySuper
的文章
2022-04-21
SparkCore 之 RDD编程
RDD的创建 SparkContext Spark RDD 编程的程序入口对象是SparkContext对象(不论何种编程语言) 只有构建出SparkContext,基于它才能执行后续的API调ஷ
2022-04-21
69
0
0
Architecture
2022-04-21
SparkCore 之 RDD详解
分布式计算需要: 分区控制 Shuffle 控制 数据存储/序列化/发送 数据计算API 等一系列功能 这些功能, 不能简单的通过Python内置的
2022-04-21
67
0
0
Architecture
2022-04-09
Spark 之 PySpark
代码实战 #!/usr/bin/env python # -*- coding: UTF-8 -*- # FileName :01_word_count.py # Author :zheng xingtao # Date :2022/3/11 13:35 import os fro
2022-04-09
59
0
0
Architecture
2022-04-05
Spark部署 之 YARN
基本原理 在已有 YARN 集群的前提下在单独准备 Spark StandAlone 集群,对资源的利用就不高 所以,在企业中,多数场景下,会将 Spark $
2022-04-05
51
0
0
Architecture
2022-03-30
Spark部署 之 HA
Spark Standalone集群是Master-Slaves架构的集群模式,和大部分的Master-Slaves结构集群一样,存在着Master单点故障(SPOF)的问题。 运行原理
2022-03-30
94
0
0
Architecture
2022-03-24
Spark部署 之 StandAlone
架构分析 Spark自带的一种集群模式 是完整的Spark运行环境: Master角色以Master进程存在,Worker角色以Worker进程存在 Driver和Executor运行于Worker进
2022-03-24
73
0
0
Architecture
2022-03-17
Spark部署 之 Local
节点配置 Node-1:Master(HDFS\YARN\Spark)+ Worker(HDFS\YARN\Spark) Node-2:Worker(HDFS\YARN\Spark) Node-3:Worker(HDFS\YARN\Spark) + Hive 工作原理 本质:启动一
2022-03-17
52
0
1
Architecture
2022-03-10
Spark 基础入门
基本概念 分布式内存计算的统一分析引擎,特点是对任意类型的数据进行自定义计算 RDD:分布式内存抽象,使程
2022-03-10
45
0
0
Architecture
2022-02-18
Hadoop 之 Hive
数据仓库 为了分析数据而来,分析结果给企业决策提供支撑 数仓概念 数据仓库(英语:Data Warehouseʌ
2022-02-18
77
0
0
Architecture
2022-02-16
Hadoop 之 YARN
YARN Apache Hadoop YARN,一种新的Hadoop资源管理器 一个通用 资源管理系统 和 调度平台,可为上层应用提供统一的资源管理和调度 为Ɓ
2022-02-16
72
0
0
Architecture
1
...
4
5
6
...
23