跳到主要内容

常见问题

什么是 Crawlab?

Crawlab 是一个开源的网络爬虫管理平台。其设计目标是帮助用户轻松创建、管理和监控网络爬虫任务。Crawlab 提供了一个友好的图形界面,允许用户配置爬虫任务、设置爬取规则、监控爬取状态和查看爬取结果。

您可以查看 介绍部分 以获取更多信息。

为什么 Crawlab 可以执行用不同编程语言和框架编写的爬虫?

Crawlab 根据 Shell 命令执行爬虫任务。因此,理论上,任何可以使用 Shell 命令运行的爬虫都可以在 Crawlab 中执行(如果环境允许)。

爬虫中的 Execution CommandParameters 会被连接起来形成实际的 Shell 命令来执行爬虫任务。例如,如果某个爬虫的 Execute Commandpython main.py 并且参数是 spider1,那么爬虫任务的 Shell 命令将是 python main.py spider1

为什么 Crawlab 总是拉取版本 v0.6.0 而不是最新版本?

对于在中国的用户,很有可能您已经配置了阿里云镜像代理。请使用其他镜像代理,如 腾讯云镜像代理

Crawlab 支持 Scrapy 吗?

是的,Crawlab 支持 Scrapy,并且有一个内置的管道可以使用。您只需要将 crawlab.CrawlabPipeline 添加到 settings.py 文件中的 ITEM_PIPELINS 来集成它。

有关更多详细信息,请参阅 数据集成

Crawlab 支持 Selenium 吗?

是的,Crawlab 支持 Selenium 进行网页抓取。有关更多详细信息,请参阅 Selenium 爬虫集成

为什么定时任务没有按预期运行?

首先检查您的定时任务是否已启用。

如果已启用,很可能是您的时区未设置为本地时间。您需要将环境变量 TZ 设置为您所在的时区,例如 Asia/Shanghai

参考:问题 #1383

什么是 Crawlab AI?

Crawlab AI 是 Crawlab 的新产品。它处于开发的早期阶段,并提供了一个游乐场供用户实验智能数据提取。您可以访问 Crawlab AI 网站以获取更多信息。