跳到主要内容

数据集成

您可以使用 Crawlab SDK 集成您的爬虫。这允许您在 Crawlab 上以可视化方式查看抓取结果。

Crawlab SDK 支持与包括 Scrapy 在内的各种网络爬虫框架以及包括 Python、Node.js、Go 和 Java 在内的编程语言的集成。

备注

默认情况下,Crawlab Python SDK(crawlab-sdk)已预装在 Crawlab 的基础镜像中。您可以在 Crawlab 的 Docker 镜像中直接使用它。

基本用法

以下代码片段展示了如何使用不同的编程语言保存一个基本项。该条目是一个字典,键为 hello,值为 crawlab。一旦执行代码,该条目将被保存到数据库并在 Crawlab Web 界面上显示。

from crawlab import save_item

# 以字典形式保存项
save_item({'hello': 'crawlab'})

Scrapy

Scrapy 是一种非常流行的 Python 网络爬虫框架,用于高效和可扩展的网络爬取任务。

将 Scrapy 集成到 Crawlab 非常简单。您只需要在 settings.py 中添加 crawlab.CrawlabPipeline

ITEM_PIPELINES = {
'crawlab.CrawlabPipeline': 888,
}

更多示例

Crawlab 允许用户轻松地与其他网络爬虫框架集成。

您可以参考 示例 获取更多详细的数据集成示例。

数据预览

Crawlab 提供了一个数据预览功能,允许用户直接在界面上检查爬取数据的增量。

查看任务数据

您可以按照以下步骤查看任务数据:

  1. 导航到 任务 详情页面
  2. 单击 数据 标签以查看任务数据

查看爬虫数据

您可以按照以下步骤查看爬虫数据:

  1. 导航到 爬虫 详情页面
  2. 单击 数据 标签以查看爬虫数据