jieba 库
搜索引擎日志分析
main.py
example_utils.py
提交到集群运行
普通提交
注意:
- 删除指定 master 的部分
- 使用 HDFS 文件路径
榨干集群性能提交
- 查看集群的资源:
- 查看 CPU 有几核:cat /proc/cpuinfo | grep processor | wc -l
- 查看内存有多大:free -g
- 这个 Spark 任务需要多少资源,简单规划:
- 需要 6 核 CPU
- 需要 12G 内存
- 希望使用 6 个 Executor,每个 Executor 用 1 核 CPU+2G 内存
总结
- 为什么要在全部的服务器安装 jieba 库?
- 因为 YARN 是集群运行,
- Executor 可以在所有服务器上执行,所以每个服务器都需要有 jieba 库提供支撑
- 如何尽量提高任务计算的资源?
- 计算 CPU 核心和内存量
- –executor-memory 指定 executor 内存
- –executor-cores 指定 executor 的核心数
- –num-executors 指定总 executor 数量
评论区