
staysync992/hms-backend酒店数据抓取代理(hotel scrapers agent)是一个用于酒店数据采集的Docker镜像,提供容器化的酒店信息抓取解决方案。该镜像封装了高效的网络爬虫工具与代理服务,支持从主流酒店预订平台(如Booking.com、Agoda、携程等)自动化抓取住宿相关数据(包括价格、房型、设施、用户评分、可预订日期等),并支持数据结构化输出与持久化存储。
bashdocker pull hotel-scrapers-agent:latest
bashdocker run -d \ --name hotel-scraper \ -v /host/path/to/output:/app/data `# 挂载宿主机目录用于数据持久化` \ -e TARGET_PLATFORMS="booking,agoda,ctrip" `# 目标平台列表(逗号分隔)` \ -e SCRAPE_INTERVAL=1440 `# 抓取间隔(分钟,默认1440即24小时)` \ -e OUTPUT_FORMAT="json" `# 输出格式(json/csv,默认json)` \ -e PROXY_POOL_URL="[***]" `# 代理池API地址(可选)` \ hotel-scrapers-agent:latest
| 环境变量名 | 描述 | 默认值 | 可选值 |
|---|---|---|---|
TARGET_PLATFORMS | 目标酒店平台列表(逗号分隔) | 空(需手动指定) | booking, agoda, ctrip, meituan |
SCRAPE_INTERVAL | 定时抓取间隔(分钟) | 1440(24小时) | 整数(≥5) |
OUTPUT_FORMAT | 数据输出格式 | json | json, csv |
OUTPUT_PATH | 容器内数据输出路径 | /app/data | 容器内可写路径 |
PROXY_POOL_URL | 代理池API地址(提供可用代理IP) | 空(不启用代理) | 有效的HTTP代理池地址 |
USER_AGENT_ROTATE | 是否启用User-Agent轮换 | true | true, false |
MAX_RETRY_TIMES | 单次请求失败重试次数 | 3 | 整数(≥1) |
/app/data目录(可通过OUTPUT_PATH调整),建议通过-v参数挂载宿主机目录持久化;{平台名称}_{日期}_data.json(如booking_20240520_data.json);hotel_id(酒店ID)、name(酒店名称)、price(价格)、room_type(房型)、rating(评分)、amenities(设施列表)、scrape_time(抓取时间)等。robots.txt协议及使用条款,合理设置抓取频率,避免对目标服务器造成过载;manifest unknown 错误
TLS 证书验证失败
DNS 解析超时
410 错误:版本过低
402 错误:流量耗尽
身份认证失败错误
429 限流错误
凭证保存错误
来自真实用户的反馈,见证轩辕镜像的优质服务