数据集成

您可以使用 Crawlab SDK 集成您的爬虫。这允许您在 Crawlab 上以可视化方式查看抓取结果。

Crawlab SDK 支持与包括 Scrapy 在内的各种网络爬虫框架以及包括 Python、Node.js、Go 和 Java 在内的编程语言的集成。

备注

默认情况下，Crawlab Python SDK（crawlab-sdk）已预装在 Crawlab 的基础镜像中。您可以在 Crawlab 的 Docker 镜像中直接使用它。

基本用法

以下代码片段展示了如何使用不同的编程语言保存一个基本项。该条目是一个字典，键为 hello，值为 crawlab。一旦执行代码，该条目将被保存到数据库并在 Crawlab Web 界面上显示。

Python
Node.js
Go
Java

from crawlab import save_item

# 以字典形式保存项
save_item({'hello': 'crawlab'})

const { saveItem } = require('@crawlab/sdk');

// 以对象形式保存项
saveItem({'hello': 'crawlab'})

信息

Node.js 仅在 Crawlab 专业版 中受支持。

package main

import "github.com/crawlab-team/crawlab-sdk-go"

func main() {
  // 以映射形式保存项
  crawlab.SaveItem(map[string]interface{}{
    "hello": "crawlab",
  })
}

信息

Go 仅在 Crawlab 专业版 中受支持。

import io.crawlab.sdk.CrawlabSdk;
import java.util.HashMap;

public class Main {
  public static void main(String[] args) {
    // 以 HashMap 形式保存项
    CrawlabSdk.saveItem(new HashMap<String, Object>() {{
      put("hello", "crawlab");
    }});
  }
}

信息

Java 仅在 Crawlab 专业版 中受支持。

Scrapy

Scrapy 是一种非常流行的 Python 网络爬虫框架，用于高效和可扩展的网络爬取任务。

将 Scrapy 集成到 Crawlab 非常简单。您只需要在 settings.py 中添加 crawlab.CrawlabPipeline。

ITEM_PIPELINES = {
  'crawlab.CrawlabPipeline': 888,
}

数据预览

Crawlab 提供了一个数据预览功能，允许用户直接在界面上检查爬取数据的增量。

查看任务数据

您可以按照以下步骤查看任务数据：

导航到 任务 详情页面
单击 数据 标签以查看任务数据

查看爬虫数据

您可以按照以下步骤查看爬虫数据：

导航到 爬虫 详情页面
单击 数据 标签以查看爬虫数据

基本用法​

Scrapy​

更多示例​

数据预览​

查看任务数据​

查看爬虫数据​

基本用法

Scrapy

更多示例

数据预览

查看任务数据

查看爬虫数据