apify/actor-node-playwright-firefox本Docker镜像为预配置的开发环境,整合了Debian GNU/Linux系统、Node.js运行时、Playwright浏览器自动化工具、Firefox浏览器引擎及Apify SDK框架,旨在为网页自动化、网络爬虫开发与数据提取任务提供一站式运行环境,减少环境配置成本,确保开发与部署一致性。
网页自动化测试
基于Playwright+Firefox实现跨平台网页UI测试、表单提交模拟、动态内容加载验证等自动化测试任务。
网络数据爬取
利用Apify SDK的爬虫基础设施(如RequestQueue、CheerioCrawler)结合Firefox渲染能力,爬取JavaScript动态渲染的网页数据。
浏览器渲染型爬虫开发
针对需要完整浏览器环境的反爬网站,通过Playwright控制Firefox执行页面交互,实现数据提取。
数据提取与处理
结合Node.js的数据处理库(如lodash、pandas-js),对爬取数据进行实时清洗与格式化。
docker run)bashdocker run -it --rm \ -v $(pwd):/app \ # 挂载本地项目目录至容器内/app -e NODE_ENV=development \ # 设置开发环境 -e APIFY_TOKEN=<your-apify-token> \ # 可选:Apify平台API令牌(用于云存储/任务调度) <image-name> \ bash # 启动bash终端
bashdocker run --rm \ -v $(pwd):/app \ -e APIFY_LOCAL_STORAGE_DIR=/app/apify_storage \ # 指定Apify本地存储路径 <image-name> \ node /app/your-script.js # 执行项目脚本
| 环境变量 | 说明 | 默认值 |
|---|---|---|
NODE_ENV | Node.js运行环境(development/production) | production |
APIFY_TOKEN | Apify平台API令牌(用于访问Apify云服务) | 空 |
APIFY_LOCAL_STORAGE_DIR | Apify本地存储目录(存放爬虫队列、结果数据等) | /apify_storage |
PLAYWRIGHT_BROWSERS_PATH | Playwright浏览器驱动路径(预配置为容器内固定路径,通常无需修改) | /ms-playwright |
yamlversion: '3.8' services: crawler: image: <image-name> volumes: - ./project:/app # 挂载本地项目 - apify_storage:/app/apify_storage # 持久化Apify存储 environment: - NODE_ENV=production - APIFY_TOKEN=<your-apify-token> command: node /app/main.js # 启动爬虫脚本 volumes: apify_storage: # 声明持久化卷
/etc/firefox目录覆盖浏览器配置(如用户代理、代理服务器)。--security-opt seccomp=unconfined参数(仅开发环境),启用Playwright调试工具。--memory=4g --cpus=2限制容器CPU/内存资源,避免爬取任务过度占用主机资源。docker build预构建完整镜像。APIFY_TOKEN启用云任务调度与分布式执行。-it参数进入交互模式,便于调试脚本逻辑。


manifest unknown 错误
TLS 证书验证失败
DNS 解析超时
410 错误:版本过低
402 错误:流量耗尽
身份认证失败错误
429 限流错误
凭证保存错误
来自真实用户的反馈,见证轩辕镜像的优质服务