apache/spark-pyApache Spark™ 是一个多语言引擎,用于在单节点机器或集群上执行数据工程、数据科学和机器学习任务。它提供Scala、Java、Python和R的高级API,以及支持数据分析通用计算图的优化引擎。还支持丰富的高级工具,包括用于SQL和DataFrames的Spark SQL、用于pandas工作负载的pandas API on Spark、用于机器学习的MLlib、用于图处理的GraphX,以及用于流处理的Structured Streaming。
<[***]>
您可以在项目网页上找到最新的Spark文档,包括编程指南。本README文件仅包含基本设置说明。
使用PySpark最简单的方法是通过Python shell:
bashdocker run -it apache/spark-py /opt/spark/bin/pyspark
运行以下命令,应返回1,000,000,000:
python>>> spark.range(1000 * 1000 * 1000).count()
<[***]>
使用<[***]>上的镜像
使用<[***]>上的镜像
manifest unknown 错误
TLS 证书验证失败
DNS 解析超时
410 错误:版本过低
402 错误:流量耗尽
身份认证失败错误
429 限流错误
凭证保存错误
来自真实用户的反馈,见证轩辕镜像的优质服务