
iomete/spark-pyiomete spark-py镜像是由iomete提供的公共Docker镜像,基于Apache Spark的Python运行环境构建。该镜像预捆绑了运行Spark Python应用所需的必要库和优化配置,旨在简化Spark Python应用的部署流程,减少环境配置开销,让用户能够专注于应用开发而非基础环境搭建。
通过Docker Hub拉取最新版本镜像:
bashdocker pull iomete/spark-py:latest
如需指定特定版本,可通过标签选择(例如指定Spark 3.3版本):
bashdocker pull iomete/spark-py:3.3-latest
bashdocker run -it --rm iomete/spark-py:latest pyspark
将本地脚本挂载到容器中并执行:
bashdocker run -v $(pwd)/your_script.py:/app/script.py iomete/spark-py:latest spark-submit /app/script.py
指定Spark Master地址运行分布式作业:
bashdocker run -e SPARK_MASTER=spark://master:7077 iomete/spark-py:latest spark-submit --master spark://master:7077 /app/script.py
| 环境变量 | 说明 | 默认值 |
|---|---|---|
SPARK_MASTER | Spark集群Master节点地址 | local[*](本地模式,使用所有可用CPU核心) |
SPARK_DRIVER_MEMORY | Driver进程内存分配 | 1g |
SPARK_EXECUTOR_MEMORY | Executor进程内存分配 | 1g |
SPARK_EXECUTOR_CORES | 每个Executor的CPU核心数 | 1 |
PYSPARK_PYTHON | Python解释器路径 | /usr/bin/python3 |
创建docker-compose.yml文件:
yamlversion: '3' services: spark-app: image: iomete/spark-py:latest volumes: - ./scripts:/app/scripts - ./data:/app/data environment: - SPARK_MASTER=spark://spark-master:7077 - SPARK_DRIVER_MEMORY=2g - SPARK_EXECUTOR_MEMORY=4g command: spark-submit /app/scripts/main.py
启动服务:
bashdocker-compose up
[spark-version]-latest,例如3.4-latest对应Spark 3.4版本manifest unknown 错误
TLS 证书验证失败
DNS 解析超时
410 错误:版本过低
402 错误:流量耗尽
身份认证失败错误
429 限流错误
凭证保存错误
来自真实用户的反馈,见证轩辕镜像的优质服务