性能监控
性能监控功能仅在 Crawlab 专业版 中可用。
Crawlab 的性能监控系统为您的网页抓取操作提供了全面的可见性,帮助您保持系统的最佳健康状态和效率。此功能跟踪分布式 节点 基础设施和 数据库 连接的关键指标,使您能够快速识别计算资源、存储性能或网络吞吐量中的瓶颈。
通过监控实时节点利用率、数据库查询模式和集群范围的任务执行情况,团队可以主动平衡工作节点上的工作负载,同时确保数据库健康。系统捕获了详细的节点级 CPU/内存分配、数据库连接池、任务持续时间分布和存储 I/O 指标数据,并保留历史趋势以进行容量规划。
这些见解使组织能够优化其爬虫架构,防止节点资源争用,并在大规模上保持一致的数据管道性能。
监控节点
Crawlab 的 节点 监控为您的分布式爬虫基础设施提供实时可见性,使主节点和工作节点之间的资源利用率达到最优。系统跟踪每个节点的关键健康指标,包括 CPU/内存分配、网络吞吐量、存储 I/O 模式和任务队列深度。这种细粒度的监控有助于识别配置不足的工作节点,检测主节点瓶颈,并保持整个爬虫基础设施的工作负载平衡。
关键监控方面包括:
- 资源利用率:通过 CPU 核心使用率和内存压力指标跟踪计算密集型操作
- 网络性能:监控节点之间进出带宽使用情况和连接成功率
- 存储健康状况:分析节点间的磁盘 I/O 延迟和存储容量趋势
通过将节点指标与任务执行模式相关联,团队可以:
- 通过预测性容量规划防止节点过载
- 自动重新分配来自困难节点的任务
- 识别影响爬虫性能的硬件限制
- 在添加新工作节点时验证扩展决策
节点总体指标
您可以在 节点 列表页面查看节点总体指标。

时间序列节点指标
对于每个节点,您可以在 节点 详细页面的 监控 选项卡中查看时间序列指标。

监控数据库
Crawlab 的 数据库 监控为您的数据管道操作提供了深入的可见性,跟踪操作数据库和分析存储库。系统分析支持的数据库(包括 MongoDB、MySQL 和 PostgreSQL)的连接池利用率、查询执行模式和存储引擎性能。关键指标包括:
- 连接健康状况:监控活动连接、连接等待时间和连接池利用率
- 查询性能:跟踪慢查询阈值、索引使用效率和锁争用模式
- 存储指标:分析读/写吞吐量、缓存命中率和复制延迟(针对集群部署)
这些见解帮助团队:
- 识别爬虫数据管道中的 N+1 查询模式
- 优化频繁查找操作的索引策略
- 防止高峰爬取期间连接池耗尽
- 通过历史趋势分析验证数据库扩展决策
您可以在 数据库 详细页面的 监控 选项卡中监控数据库性能指标。

通知
强烈建议您为关键指标设置警报,以便在潜在问题发生时收到通知。
Crawlab 提供关键指标的实时警报,帮助团队提前应对潜在问题。
更多详情请参阅 通知警报。
最佳实践
- 监控节点和数据库性能:定期检查节点和数据库性能指标,以识别潜在瓶颈。
- 优化任务分发:调整任务分发策略,以平衡节点间的工作负载。
- 监控任务执行:跟踪任务执行模式,以识别并解决性能问题。
- 设置警报:为关键指标设置警报,以便在潜在问题发生时收到通知。