Datadog 降低成本的努力
当我们审查 Zaxby 的 Datadog 使用情况时,我们发现在不影响可见性或运行可靠性的情况下,有很大的机会降低成本。我们的目标很简单:优化支出,同时保持对监控和可观测性的信心。在分析了使用模式和高成本领域后,我们成功地将 Datadog 支出减少了约50% 。
主要成果:
- 减少索引日志量,同时保留用于故障排除和合规性的关键日志
- 优化 RUM 保留策略,保持对基本用户行为的可见性
- 重新评估无服务器监控,以保留有价值的见解,同时消除不必要的调用
- 实现Datadog 支出总体减少 50%
索引日志
日志索引对总支出的贡献最大。在审查管道和索引的过程中,我们发现有很大一部分日志没有增加有意义的价值。通过完善日志索引并改进标记以提高可搜索性,我们能够保留真正重要的日志,同时减少不必要的工作量。
主要行动包括
- 审计当前的日志索引和管道,以查看哪些内容被排除在外(如果有的话)
- 按服务分析大容量日志,了解主要促成因素
- 创建并改进日志排除过滤器,确保只索引重要日志
- 更新管道以改进标记和可搜索性,为特定日志附加服务和环境
- 使用 "度量资源管理器 "跟踪趋势,调整过滤器和指数配置,在可观察性和成本效益之间取得平衡
这一过程明确了哪些数据集对操作和警报真正有价值。
保留 RUM
真实用户监控 (RUM) 提供了宝贵的见解,我们意识到我们正在收集和分析每个会话。在审查了各应用程序的保留策略后,我们根据使用频率和业务关键性调整了设置。
我们采取的措施
- 审查所有 RUM 申请及其保留期限
- 根据使用频率和受监控经验的重要性调整保留政策
- 验证仪表板和警报,确保在优化过程中不会丢失关键见解
仪表盘和警报功能仍能如期运行,同时存储空间占用也大幅减少。其结果是,RUM 数据的收集更加精简,目的性更强,并保持了对用户行为的完全可见性。
无服务器调用审计
最后,我们回顾了无服务器监控。几个 AWS Lambda 函数每周产生数百万次调用,而我们正在记录每次调用。通过过滤非关键调用,我们在不影响性能的情况下保持了关键指标的完整性。
这一调整提供了更清晰的 Lambda 活动视图,并展示了有针对性的变化如何在不影响可观察性的情况下实现有意义的成本削减。
结论
通过这一成本优化举措,Arbory Digital 成功地将 Zaxby's 的 Datadog 费用降低了50% ,同时保持了可视性和运行可靠性。通过改进日志索引、调整 RUM 保留和审计无服务器调用,我们建立了一个可持续的系统,在成本和功能之间取得了平衡。
虽然已经取得了重大进展,但我们仍在继续监控和完善使用模式,以确定更多的效率,并确保 Zaxby's 保持最佳的可观察模式。
欲了解更多信息,请参阅Zaxby's 客户聚焦 - Arbory Digital 中的其他成本节约措施。
播客发言人
喜欢你听到的吗?对什么适合您有疑问?我们很乐意与您交谈!联系我们