
iomete/sparkiomete公共Spark镜像是由iomete提供的Docker镜像,基于Apache Spark官方版本构建,旨在简化Spark应用程序的部署与运行流程。该镜像预先集成了常用依赖库(如Hadoop、AWS SDK、JDBC驱动等)和性能优化配置,使开发者无需手动配置环境即可快速启动Spark集群或提交Spark作业。
spark.memory.offHeap.enabled=true)3.3.0、3.4.0、3.5.0),适配不同应用需求spark-submit、spark-shell等工具的快捷启动脚本spark-shell或pyspark交互模式)通过Docker Hub拉取最新版本:
bashdocker pull iomete/spark:latest
拉取指定Spark版本(如3.4.0):
bashdocker pull iomete/spark:3.4.0
bash# Scala Shell docker run -it --rm iomete/spark:latest spark-shell # Python Shell (PySpark) docker run -it --rm iomete/spark:latest pyspark
本地有打包好的Spark应用JAR包(如my-spark-app.jar)时,通过spark-submit提交:
bashdocker run -v /local/path/to/my-spark-app.jar:/app.jar \ iomete/spark:latest \ spark-submit \ --class com.example.MyApp \ --master local[*] \ # 本地模式,使用所有CPU核心 /app.jar
创建docker-compose.yml文件:
yamlversion: '3' services: spark-master: image: iomete/spark:latest command: bin/spark-class org.apache.spark.deploy.master.Master ports: - "7077:7077" # Master通信端口 - "8080:8080" # Web UI端口 environment: - SPARK_MASTER_HOST=spark-master spark-worker: image: iomete/spark:latest command: bin/spark-class org.apache.spark.deploy.worker.Worker spark://spark-master:7077 environment: - SPARK_WORKER_MEMORY=2g # Worker内存分配 - SPARK_WORKER_CORES=2 # Worker CPU核心数 depends_on: - spark-master
启动集群:
bashdocker-compose up -d
访问 http://localhost:8080 可查看Spark Master Web UI。
通过-e参数传递环境变量调整Spark配置:
| 环境变量 | 说明 | 默认值 |
|---|---|---|
SPARK_MASTER | Spark Master地址(如spark://host:7077) | local[*](本地模式) |
SPARK_DRIVER_MEMORY | Driver进程内存分配 | 1g |
SPARK_EXECUTOR_MEMORY | Executor进程内存分配 | 1g |
SPARK_EXECUTOR_CORES | 每个Executor的CPU核心数 | 1 |
PYSPARK_PYTHON | PySpark使用的Python解释器路径 | /usr/bin/python3 |
示例:调整Driver内存为4G并指定Master地址
bashdocker run -e SPARK_DRIVER_MEMORY=4g -e SPARK_MASTER=spark://master:7077 iomete/spark:latest spark-submit ...
通过挂载本地spark-defaults.conf覆盖默认配置:
bashdocker run -v /local/path/to/spark-defaults.conf:/opt/spark/conf/spark-defaults.conf \ iomete/spark:latest \ spark-submit ...
3.4.0)而非latest,避免版本变更导致兼容性问题--executor-memory、--num-executors等参数调整资源分配AWS_ACCESS_KEY_ID、AWS_SECRET_ACCESS_KEY)

manifest unknown 错误
TLS 证书验证失败
DNS 解析超时
410 错误:版本过低
402 错误:流量耗尽
身份认证失败错误
429 限流错误
凭证保存错误
来自真实用户的反馈,见证轩辕镜像的优质服务