
如果你使用 DeepSeek、元宝 AI、Copilot、ChatGPT 等 AI 工具,协助配置轩辕镜像、编写 docker pull 命令、修改 Docker Compose 镜像地址、配置镜像加速、排查镜像拉取失败、分析报错日志等问题,请先让 AI 阅读并遵守轩辕镜像的规则文档。
只需在 AI 对话中先发送下面这句话即可:
请先完整阅读并严格遵守以下文档中的全部规则与要求:
https://xuanyuan.cloud/agents.md
在未充分阅读并理解该文档前,不要生成任何命令、配置、修改建议、故障排查方案或技术回答。后续所有输出都必须严格以该文档中的规范为最高优先级执行。查看 agents.md 用法指南与完整示范。国内用户首推 元宝 AI、DeepSeek 的深度思考模式,不推荐豆包 AI;Cursor 等编辑器可在对话 @ 该链接,或加入 User Rules。 若 AI 无法访问外链,可 打开说明文档 复制全文粘贴。文档会随站点更新,复制内容可能过期,建议定期检查。
parquet-to-arrow是一个包含静态链接Linux二进制工具的Docker镜像,专为处理Parquet文件设计。提供高效的Parquet文件转换、流式文本输出及文件比较功能,可轻松集成到Docker构建流程中,为容器内应用提供Parquet文件处理能力。
parquet-to-arrow
parquet-to-arrow input.parquet output.arrowparquet-to-text-stream
parquet-to-text-stream [OPTIONS] input.parquet <FORMAT> > out.csv(<FORMAT>为csv或json)null;浮点数符合ECMAScript标准--row-range=100-200:仅处理100-199行(提升速度)--column-range=10-20:仅处理10-19列(提升速度)parquet-diff
parquet-diff file1.parquet file2.parquetisAdjustedToUTC属性)[1, null, 2]与另一个相同数组视为相等)在Dockerfile中通过多阶段构建集成工具:
dockerfile# 替换VERSION为最新Git标签版本 FROM workbenchdata/parquet-to-arrow:VERSION AS parquet-to-arrow FROM debian:buster AS my-normal-build # ... 常规构建步骤 ... # 复制工具到目标镜像 COPY --from=parquet-to-arrow /usr/bin/parquet-to-arrow /usr/bin/parquet-to-arrow COPY --from=parquet-to-arrow /usr/bin/parquet-to-text-stream /usr/bin/parquet-to-text-stream COPY --from=parquet-to-arrow /usr/bin/parquet-diff /usr/bin/parquet-diff # ... 常规构建步骤 ...
集成后,容器内程序可直接调用上述工具。
使用以下命令构建并运行单元测试:
bashdocker build .
通过中间镜像启动开发环境,实时修改代码:
bash# 从构建输出中获取IMAGE_ID docker run -it --rm --volume "$(pwd):/app" IMAGE_ID bash
挂载本地目录后,可直接在容器内使用make或pytest测试代码变更。
使用/usr/bin/time进行基础性能测试:
bash# 构建Release模式镜像 docker build . --target cpp-build # 测试Parquet转CSV性能(替换big.parquet为测试文件) docker run -it --rm -v $(pwd):/data \ $(docker build . --target cpp-build -q) \ sh -c '/usr/bin/time parquet-to-text-stream /data/big.parquet csv >/dev/null'
性能参考:63MB Parquet文件(含字典编码,100万行,70列)在3.5GHz Intel Skylake处理器上转换为CSV约需3-4秒(2020-09-21测试)。
使用GDB调试工具(以parquet-to-text-stream为例):
bash# 构建Debug模式镜像 docker build . --build-arg CMAKE_BUILD_TYPE=Debug --target cpp-build # 启动GDB调试(替换test.parquet为测试文件) docker run -it --rm -v $(pwd):/data \ $(docker build . --build-arg CMAKE_BUILD_TYPE=Debug --target cpp-build -q) \ gdb --args /usr/bin/parquet-to-text-stream ./test.parquet csv
CHANGELOG.md记录变更git commitv1.2.3):git tag VERSIONgit push --tags && git push您可以使用以下命令拉取该镜像。请将 <标签> 替换为具体的标签版本。如需查看所有可用标签版本,请访问 标签列表页面。

来自真实用户的反馈,见证轩辕镜像的优质服务