
artielabs/reader本Docker镜像为通用数据读取器,专注于从多种数据源(尤其是DynamoDB)高效提取数据,支持数据集成、ETL流程及数据分析场景,提供轻量级、可配置的数据读取能力,便于快速集成至各类数据处理 pipeline。
bashdocker run -d \ --name data-reader \ -e SOURCE_TYPE="DYNAMODB" \ -e DYNAMODB_TABLE="user-data" \ -e AWS_REGION="us-west-2" \ -e AWS_ACCESS_KEY_ID="AKIAEXAMPLE" \ -e AWS_SECRET_ACCESS_KEY="secret" \ -e READ_BATCH_SIZE="100" \ data-reader-image:latest
| 环境变量 | 描述 | 示例值 | 是否必填 |
|---|---|---|---|
SOURCE_TYPE | 数据源类型(大写) | "DYNAMODB" | 是 |
DYNAMODB_TABLE | DynamoDB表名(当SOURCE_TYPE为DYNAMODB时) | "order-history" | 是 |
AWS_REGION | AWS区域(当SOURCE_TYPE为DYNAMODB时) | "eu-central-1" | 是 |
AWS_ACCESS_KEY_ID | AWS访问密钥ID(当SOURCE_TYPE为DYNAMODB时) | "AKIAEXAMPLEKEY" | 否(优先使用IAM角色) |
AWS_SECRET_ACCESS_KEY | AWS密钥(当SOURCE_TYPE为DYNAMODB时) | "example-secret-key" | 否(优先使用IAM角色) |
READ_BATCH_SIZE | 单次读取批次大小 | "200" | 否(默认100) |
OUTPUT_FORMAT | 输出格式(JSON/CSV) | "JSON" | 否(默认JSON) |
OUTPUT_PATH | 输出文件路径(本地文件系统) | "/data/output.json" | 否(默认标准输出) |
yamlversion: '3' services: data-reader: image: data-reader-image:latest environment: - SOURCE_TYPE=DYNAMODB - DYNAMODB_TABLE=product-catalog - AWS_REGION=ap-southeast-1 - READ_BATCH_SIZE=150 - OUTPUT_FORMAT=CSV - OUTPUT_PATH=/data/products.csv volumes: - ./data:/data # 挂载本地目录用于输出文件 restart: on-failure
通过环境变量 DYNAMODB_FILTER_EXPRESSION 设置筛选条件,示例:
bashdocker run -d \ --name dynamodb-reader \ -e SOURCE_TYPE="DYNAMODB" \ -e DYNAMODB_TABLE="orders" \ -e AWS_REGION="us-east-1" \ -e DYNAMODB_FILTER_EXPRESSION="order_date > :start_date" \ -e DYNAMODB_EXPRESSION_ATTRIBUTES=":{start_date}=2023-01-01" \ data-reader-image:latest
通过 CONCURRENT_READS 环境变量设置并发读取数(默认1),提高读取效率:
bash-e CONCURRENT_READS="5" # 启用5个并发读取线程
manifest unknown 错误
TLS 证书验证失败
DNS 解析超时
410 错误:版本过低
402 错误:流量耗尽
身份认证失败错误
429 限流错误
凭证保存错误
来自真实用户的反馈,见证轩辕镜像的优质服务