跳到主要内容

性能监控

信息

性能监控功能仅在 Crawlab 专业版 中可用。

Crawlab 的性能监控系统为您的网页抓取操作提供了全面的可见性,帮助您保持系统的最佳健康状态和效率。此功能跟踪分布式 节点 基础设施和 数据库 连接的关键指标,使您能够快速识别计算资源、存储性能或网络吞吐量中的瓶颈。

通过监控实时节点利用率、数据库查询模式和集群范围的任务执行情况,团队可以主动平衡工作节点上的工作负载,同时确保数据库健康。系统捕获了详细的节点级 CPU/内存分配、数据库连接池、任务持续时间分布和存储 I/O 指标数据,并保留历史趋势以进行容量规划。

这些见解使组织能够优化其爬虫架构,防止节点资源争用,并在大规模上保持一致的数据管道性能。

监控节点

Crawlab 的 节点 监控为您的分布式爬虫基础设施提供实时可见性,使主节点和工作节点之间的资源利用率达到最优。系统跟踪每个节点的关键健康指标,包括 CPU/内存分配、网络吞吐量、存储 I/O 模式和任务队列深度。这种细粒度的监控有助于识别配置不足的工作节点,检测主节点瓶颈,并保持整个爬虫基础设施的工作负载平衡。

关键监控方面包括:

  • 资源利用率:通过 CPU 核心使用率和内存压力指标跟踪计算密集型操作
  • 网络性能:监控节点之间进出带宽使用情况和连接成功率
  • 存储健康状况:分析节点间的磁盘 I/O 延迟和存储容量趋势

通过将节点指标与任务执行模式相关联,团队可以:

  • 通过预测性容量规划防止节点过载
  • 自动重新分配来自困难节点的任务
  • 识别影响爬虫性能的硬件限制
  • 在添加新工作节点时验证扩展决策

节点总体指标

您可以在 节点 列表页面查看节点总体指标。

节点总体指标

时间序列节点指标

对于每个节点,您可以在 节点 详细页面的 监控 选项卡中查看时间序列指标。

节点指标

监控数据库

Crawlab 的 数据库 监控为您的数据管道操作提供了深入的可见性,跟踪操作数据库和分析存储库。系统分析支持的数据库(包括 MongoDB、MySQL 和 PostgreSQL)的连接池利用率、查询执行模式和存储引擎性能。关键指标包括:

  • 连接健康状况:监控活动连接、连接等待时间和连接池利用率
  • 查询性能:跟踪慢查询阈值、索引使用效率和锁争用模式
  • 存储指标:分析读/写吞吐量、缓存命中率和复制延迟(针对集群部署)

这些见解帮助团队:

  • 识别爬虫数据管道中的 N+1 查询模式
  • 优化频繁查找操作的索引策略
  • 防止高峰爬取期间连接池耗尽
  • 通过历史趋势分析验证数据库扩展决策

您可以在 数据库 详细页面的 监控 选项卡中监控数据库性能指标。

数据库指标

通知

提示

强烈建议您为关键指标设置警报,以便在潜在问题发生时收到通知。

Crawlab 提供关键指标的实时警报,帮助团队提前应对潜在问题。

更多详情请参阅 通知警报

最佳实践

  1. 监控节点和数据库性能:定期检查节点和数据库性能指标,以识别潜在瓶颈。
  2. 优化任务分发:调整任务分发策略,以平衡节点间的工作负载。
  3. 监控任务执行:跟踪任务执行模式,以识别并解决性能问题。
  4. 设置警报:为关键指标设置警报,以便在潜在问题发生时收到通知。