
materialbank/crawl4ai本镜像提供极速、AI就绪的网络爬虫能力,专为大型语言模型(LLMs)、AI代理和数据管道场景设计,可高效爬取并处理网页数据,满足AI应用的数据采集需求。
bashdocker run -d --name ai-web-crawler [镜像名称]
通过环境变量配置爬虫行为:
CRAWL_DEPTH:爬取深度(默认值:2),控制链接递归爬取层级CONCURRENT_REQUESTS:并发请求数(默认值:10),调整爬取速度TARGET_URL:起始爬取URL(必填),指定爬虫入口点OUTPUT_FORMAT:输出格式(支持json/csv,默认:json)USER_AGENT:自定义User-Agent头,模拟浏览器请求示例:指定目标URL和输出格式
bashdocker run -d --name ai-crawler \ -e TARGET_URL="[***]" \ -e OUTPUT_FORMAT="csv" \ -e CRAWL_DEPTH=3 \ [镜像名称]
通过挂载卷保存爬取结果:
bashdocker run -d --name ai-crawler \ -v /host/path/to/data:/app/output \ -e TARGET_URL="[***]" \ [镜像名称]
爬取结果将保存至宿主机的/host/path/to/data目录
yamlversion: '3' services: crawler: image: [镜像名称] environment: - TARGET_URL=[***] - CRAWL_DEPTH=2 - CONCURRENT_REQUESTS=15 - OUTPUT_FORMAT=json volumes: - ./crawler-data:/app/output restart: unless-stopped
CONCURRENT_REQUESTS参数





manifest unknown 错误
TLS 证书验证失败
DNS 解析超时
410 错误:版本过低
402 错误:流量耗尽
身份认证失败错误
429 限流错误
凭证保存错误
来自真实用户的反馈,见证轩辕镜像的优质服务