arm64v8/spark Docker Image Overview

arm64v8/spark

arm64v8

Apache Spark是用于大规模数据处理的统一分析引擎。

1 次收藏下载次数: 0状态：社区镜像维护者：arm64v8仓库类型：镜像最近更新：22 天前

轩辕镜像，让镜像更快，让人生更轻。点击查看

中文简介版本下载

轩辕镜像，让镜像更快，让人生更轻。点击查看

arm64v8/spark Docker镜像文档

镜像概述和主要用途

arm64v8/spark 是针对ARM64架构优化的Apache Spark官方Docker镜像，基于spark官方镜像的arm64v8架构构建版本。Apache Spark是一个统一的大数据分析引擎，支持大规模数据处理、数据科学和机器学习任务，提供多语言API（Scala、Java、Python、R）及分布式计算能力。该镜像适用于在ARM64架构环境中快速部署和运行Spark应用，简化大数据处理流程。

核心功能和特性

多语言支持

原生支持Scala、Java、Python和R编程语言，满足不同技术栈需求
提供交互式Shell（spark-shell、pyspark、sparkR），便于实时数据分析和调试

高性能计算

基于内存计算模型，显著提升迭代式算法和交互式查询性能
支持分布式计算，可在单节点或集群环境中扩展处理能力

丰富的分析工具

Spark SQL：支持SQL查询和DataFrame API，兼容Hive元数据
MLlib：内置机器学习库，提供分类、回归、聚类等算法
GraphX：图处理引擎，支持复杂关系数据分析
Structured Streaming：实时流处理框架，支持增量数据处理

灵活部署

支持独立集群模式、YARN、Kubernetes等多种部署环境
基于Ubuntu系统构建，依赖管理清晰，环境一致性高

使用场景和适用范围

大数据批处理：日志分析、数据ETL、大规模数据集转换
数据科学研究：通过交互式Shell进行探索性数据分析
机器学习工程：利用MLlib训练和部署机器学习模型
实时数据处理：通过Structured Streaming处理流数据（如日志流、传感器数据）
ARM64架构环境：适用于ARM服务器、边缘计算设备等ARM64平台的大数据场景

支持的标签及Dockerfile链接

标签	对应的Dockerfile链接
`4.0.0-scala2.13-java21-python3-ubuntu`, `4.0.0-java21-python3`, `4.0.0-java21`, `python3`, `latest`	Dockerfile
`4.0.0-scala2.13-java21-r-ubuntu`, `4.0.0-java21-r`	Dockerfile
`4.0.0-scala2.13-java21-ubuntu`, `4.0.0-java21-scala`	Dockerfile
`4.0.0-scala2.13-java21-python3-r-ubuntu`	Dockerfile
`4.0.0-scala2.13-java17-python3-ubuntu`, `4.0.0-python3`, `4.0.0`, `python3-java17`	Dockerfile
`4.0.0-scala2.13-java17-r-ubuntu`, `4.0.0-r`, `r`	Dockerfile
`4.0.0-scala2.13-java17-ubuntu`, `4.0.0-scala`, `scala`	Dockerfile
`4.0.0-scala2.13-java17-python3-r-ubuntu`	Dockerfile
`3.5.7-scala2.12-java17-python3-ubuntu`, `3.5.7-java17-python3`, `3.5.7-java17`	Dockerfile
`3.5.7-scala2.12-java17-r-ubuntu`, `3.5.7-java17-r`	Dockerfile
`3.5.7-scala2.12-java17-ubuntu`, `3.5.7-java17-scala`	Dockerfile
`3.5.7-scala2.12-java17-python3-r-ubuntu`	Dockerfile
`3.5.7-scala2.12-java11-python3-ubuntu`, `3.5.7-python3`, `3.5.7`	Dockerfile
`3.5.7-scala2.12-java11-r-ubuntu`, `3.5.7-r`	Dockerfile
`3.5.7-scala2.12-java11-ubuntu`, `3.5.7-scala`	Dockerfile
`3.5.7-scala2.12-java11-python3-r-ubuntu`	Dockerfile

使用方法和配置说明

交互式Shell

Scala Shell

通过Scala Shell快速开始Spark交互：

bash
docker run -it arm64v8/spark /opt/spark/bin/spark-shell

示例命令（返回1,000,000,000）：

scala
scala> spark.range(1000 * 1000 * 1000).count()

Python Shell（PySpark）

使用Python Shell需指定python3标签：

bash
docker run -it arm64v8/spark:python3 /opt/spark/bin/pyspark

示例命令：

python
>>> spark.range(1000 * 1000 * 1000).count()

R Shell（SparkR）

使用R Shell需指定r标签：

bash
docker run -it arm64v8/spark:r /opt/spark/bin/sparkR

Docker部署示例

单节点Spark集群（docker run）

启动Spark Master节点：

bash
docker run -d \
  --name spark-master \
  -p 7077:7077 \
  -p 8080:8080 \
  arm64v8/spark \
  /opt/spark/bin/spark-class org.apache.spark.deploy.master.Master

启动Spark Worker节点（连接到Master）：

bash
docker run -d \
  --name spark-worker \
  --link spark-master:master \
  arm64v8/spark \
  /opt/spark/bin/spark-class org.apache.spark.deploy.worker.Worker spark://master:7077

Docker Compose配置（单节点集群）

创建docker-compose.yml：

yaml
version: '3'
services:
  master:
    image: arm64v8/spark
    container_name: spark-master
    ports:
      - "7077:7077"  # Master节点端口
      - "8080:8080"  # Web UI端口
    command: /opt/spark/bin/spark-class org.apache.spark.deploy.master.Master

  worker:
    image: arm64v8/spark
    container_name: spark-worker
    depends_on:
      - master
    environment:
      - SPARK_MASTER=spark://master:7077
    command: /opt/spark/bin/spark-class org.apache.spark.deploy.worker.Worker ${SPARK_MASTER}

启动集群：