本站支持搜索的镜像仓库:Docker Hub、gcr.io、ghcr.io、quay.io、k8s.gcr.io、registry.gcr.io、elastic.co、mcr.microsoft.com

本镜像为集成 Java 11 运行时环境、Apache Spark 和 Apache Hadoop 的一站式大数据处理 Docker 镜像。旨在提供开箱即用的大数据开发、测试与运行环境,消除手动配置 Spark 和 Hadoop 集群的复杂性,支持基于 Java 11 的 Spark 应用开发、Hadoop 分布式文件系统(HDFS)操作及批处理/流处理任务执行。
docker pull [镜像仓库地址]/java11-spark-hadoop:latest # 替换为实际镜像仓库地址
若需自定义版本,可基于 Dockerfile 构建:
git clone [镜像源码仓库] cd java11-spark-hadoop docker build -t java11-spark-hadoop:custom .
docker run -it --name spark-hadoop-local \ -p 4040:4040 # Spark 应用 UI 端口 \ -p 8080:8080 # Spark Master UI 端口 \ -p 50070:50070 # HDFS NameNode UI 端口 \ -v /host/data:/container/data # 挂载宿主机数据目录 \ java11-spark-hadoop:latest /bin/bash
进入容器后,执行以下命令验证组件可用性:
# 验证 Java 版本 java -version # 输出 Java 11 版本信息 # 验证 Spark spark-shell # 启动 Spark Shell(Scala),进入交互式编程环境 # 验证 HDFS hdfs dfs -ls / # 列出 HDFS 根目录(默认空)
适用于启动包含 Spark Master/Worker 及 HDFS NameNode/DataNode 的小规模集群:
version: '3.8' services: # HDFS NameNode namenode: image: java11-spark-hadoop:latest container_name: hdfs-namenode ports: - "50070:50070" # NameNode UI - "9000:9000" # HDFS 服务端口 environment: - HDFS_ROLE=namenode - HDFS_NAMENODE_HOST=namenode volumes: - hdfs-namenode-data:/hadoop/dfs/name networks: - bigdata-net # HDFS DataNode datanode: image: java11-spark-hadoop:latest container_name: hdfs-datanode depends_on: - namenode environment: - HDFS_ROLE=datanode - HDFS_NAMENODE_HOST=namenode volumes: - hdfs-datanode-data:/hadoop/dfs/data networks: - bigdata-net # Spark Master spark-master: image: java11-spark-hadoop:latest container_name: spark-master ports: - "8080:8080" # Master UI - "7077:7077" # Master 服务端口 environment: - SPARK_ROLE=master - SPARK_MASTER_HOST=spark-master networks: - bigdata-net # Spark Worker spark-worker: image: java11-spark-hadoop:latest container_name: spark-worker depends_on: - spark-master environment: - SPARK_ROLE=worker - SPARK_MASTER_URL=spark://spark-master:7077 - SPARK_WORKER_CORES=2 # 分配 CPU 核心数 - SPARK_WORKER_MEMORY=2g # 分配内存 networks: - bigdata-net volumes: hdfs-namenode-data: hdfs-datanode-data: networks: bigdata-net: driver: bridge
docker-compose up -d # 后台启动所有服务 docker-compose logs -f # 查看集群启动日志
| 环境变量名 | 说明 | 默认值 |
|---|---|---|
JAVA_HOME | Java 11 安装路径 | /usr/lib/jvm/java-11-openjdk-amd64 |
SPARK_VERSION | Apache Spark 版本 | 3.3.4 |
HADOOP_VERSION | Apache Hadoop 版本 | 3.3.6 |
SPARK_ROLE | Spark 节点角色(master/worker) | local(本地模式) |
SPARK_MASTER_HOST | Spark Master 主机地址 | localhost |
SPARK_WORKER_CORES | Spark Worker 可用 CPU 核心数 | 1 |
SPARK_WORKER_MEMORY | Spark Worker 可用内存 | 1g |
HDFS_ROLE | HDFS 节点角色(namenode/datanode) | standalone(单节点) |
HDFS_NAMENODE_HOST | HDFS NameNode 主机地址 | localhost |
通过挂载宿主机配置文件覆盖默认配置:
docker run -it \ -v /host/custom/spark-defaults.conf:/opt/spark/conf/spark-defaults.conf \ # Spark 配置 -v /host/custom/core-site.xml:/opt/hadoop/etc/hadoop/core-site.xml \ # Hadoop 核心配置 java11-spark-hadoop:latest
为避免容器重启导致 HDFS 数据丢失,需挂载数据卷:
# 宿主机创建 HDFS 数据目录 mkdir -p /host/hdfs/namenode /host/hdfs/datanode # 启动容器时挂载 docker run -it \ -v /host/hdfs/namenode:/hadoop/dfs/name \ # NameNode 元数据 -v /host/hdfs/datanode:/hadoop/dfs/data \ # DataNode 数据 java11-spark-hadoop:latest
若宿主机已占用 8080(Spark UI)、50070(HDFS UI)等端口,启动时需修改映射端口:
docker run -it -p 8081:8080 -p 50071:50070 java11-spark-hadoop:latest
Spark/Hadoop 运行时需足够内存,建议宿主机内存 ≥ 4GB,或通过 SPARK_WORKER_MEMORY 限制资源占用。
首次启动 NameNode 需格式化文件系统:
docker exec -it hdfs-namenode hdfs namenode -format
免费版仅支持 Docker Hub 加速,不承诺可用性和速度;专业版支持更多镜像源,保证可用性和稳定速度,提供优先客服响应。
免费版仅支持 docker.io;专业版支持 docker.io、gcr.io、ghcr.io、registry.k8s.io、nvcr.io、quay.io、mcr.microsoft.com、docker.elastic.co 等。
当返回 402 Payment Required 错误时,表示流量已耗尽,需要充值流量包以恢复服务。
通常由 Docker 版本过低导致,需要升级到 20.x 或更高版本以支持 V2 协议。
先检查 Docker 版本,版本过低则升级;版本正常则验证镜像信息是否正确。
使用 docker tag 命令为镜像打上新标签,去掉域名前缀,使镜像名称更简洁。
探索更多轩辕镜像的使用方法,找到最适合您系统的配置方式
通过 Docker 登录方式配置轩辕镜像加速服务,包含7个详细步骤
在 Linux 系统上配置轩辕镜像源,支持主流发行版
在 Docker Desktop 中配置轩辕镜像加速,适用于桌面系统
在 Docker Compose 中使用轩辕镜像加速,支持容器编排
在 k8s 中配置 containerd 使用轩辕镜像加速
在宝塔面板中配置轩辕镜像加速,提升服务器管理效率
在 Synology 群晖NAS系统中配置轩辕镜像加速
在飞牛fnOS系统中配置轩辕镜像加速
在极空间NAS中配置轩辕镜像加速
在爱快ikuai系统中配置轩辕镜像加速
在绿联NAS系统中配置轩辕镜像加速
在威联通NAS系统中配置轩辕镜像加速
在 Podman 中配置轩辕镜像加速,支持多系统
配置轩辕镜像加速9大主流镜像仓库,包含详细配置步骤
无需登录即可使用轩辕镜像加速服务,更加便捷高效
需要其他帮助?请查看我们的 常见问题 或 官方QQ群: 13763429