数据集成
您可以使用 Crawlab SDK 集成您的爬虫。这允许您在 Crawlab 上以可视化方式查看抓取结果。
Crawlab SDK 支持与包括 Scrapy 在内的各种网络爬虫框架以及包括 Python、Node.js、Go 和 Java 在内的编程语言的集成。
备注
默认情况下,Crawlab Python SDK(crawlab-sdk)已预装在 Crawlab 的基础镜像中。您可以在 Crawlab 的 Docker 镜像中直接使用它。
基本用法
以下代码片段展示了如何使用不同的编程语言保存一个基本项。该条目是一个字典,键为 hello,值为 crawlab。一旦执行代码,该条目将被保存到数据库并在 Crawlab Web 界面上显示。
- Python
- Node.js
- Go
- Java
from crawlab import save_item
# 以字典形式保存项
save_item({'hello': 'crawlab'})
const { saveItem } = require('@crawlab/sdk');
// 以对象形式保存项
saveItem({'hello': 'crawlab'})
信息
Node.js 仅在 Crawlab 专业版 中受支持。
package main
import "github.com/crawlab-team/crawlab-sdk-go"
func main() {
// 以映射形式保存项
crawlab.SaveItem(map[string]interface{}{
"hello": "crawlab",
})
}
信息
Go 仅在 Crawlab 专业版 中受支持。
import io.crawlab.sdk.CrawlabSdk;
import java.util.HashMap;
public class Main {
public static void main(String[] args) {
// 以 HashMap 形式保存项
CrawlabSdk.saveItem(new HashMap<String, Object>() {{
put("hello", "crawlab");
}});
}
}
信息
Java 仅在 Crawlab 专业版 中受支持。
Scrapy
Scrapy 是一种非常流行的 Python 网络爬虫框架,用于高效和可扩展的网络爬取任务。
将 Scrapy 集成到 Crawlab 非常简单。您只需要在 settings.py 中添加 crawlab.CrawlabPipeline。
ITEM_PIPELINES = {
'crawlab.CrawlabPipeline': 888,
}
更多示例
Crawlab 允许用户轻松地与其他网络爬虫框架集成。
您可以参考 示例 获取更多详细的数据集成示例。
数据预览
Crawlab 提供了一个数据预览功能,允许用户直接在界面上检查爬取数据的增量。
查看任务数据
您可以按照以下步骤查看任务数据:
- 导航到
任务详情页面 - 单击
数据标签以查看任务数据
查看爬虫数据
您可以按照以下步骤查看爬虫数据:
- 导航到
爬虫详情页面 - 单击
数据标签以查看爬虫数据