Datadog 降低成本的努力
當我們檢視 Zaxby 的 Datadog 使用情況時,我們發現在不影響可視性或作業可靠性的情況下,有很大的機會可以降低成本。我們的目標很簡單:優化支出,同時維持對監控和可觀察性的信心。在分析使用模式和高成本區域後,我們成功減少 Datadog 支出約50% 。
關鍵成果:
- 減少索引日誌量,同時保留重要日誌以利故障診斷與法規遵循
- 優化 RUM 保留政策,以維持重要使用者行為的可見性
- 重新評估無伺服器監控,以保留有價值的洞察力,同時消除不必要的調用
- 實現Datadog 開支整體減少 50%
索引日誌
日誌索引是整體支出的最大貢獻者。當我們檢閱管道和索引時,我們發現有相當大的一部分日誌並沒有增加有意義的價值。透過精確索引日誌,並改善標籤的可搜尋性,我們能夠保留真正重要的日誌,同時減少不必要的數量。
主要行動包括
- 稽核目前的日誌索引和管道,以瞭解哪些內容被排除在外(如果有的話)
- 按服務分析高流量日誌,以瞭解主要貢獻者
- 建立並改善日誌排除篩選器,以確保只索引重要的日誌
- 更新管道以改善標記和可搜尋性,將服務和環境附加至特定日誌
- 使用 Metric Explorer 追蹤趨勢並調整篩選器和指數配置,以平衡可觀察性與成本效益
這個過程釐清了哪些資料集對作業和警報有真正的價值。
RUM 保留
Real User Monitoring (RUM) 提供了寶貴的洞察力,我們意識到我們正在收集和分析每個會話。在檢閱各應用程式的保留政策後,我們根據使用頻率和業務關鍵性調整設定。
我們採取的步驟
- 審核所有 RUM 申請及其保留期限
- 根據使用頻率和受監控經驗的重要程度調整保留政策
- 驗證儀表板和警示,以確保在最佳化過程中不會遺失重要的洞察力
儀表板和警示功能仍能如預期般運作,而儲存空間佔用量則大幅減少。結果是更精簡、更有目的性的 RUM 資料收集,並維持使用者行為的完整可見性。
無伺服器呼叫稽核
最後,我們回顧了無伺服器監控。幾個 AWS Lambda 函式每週都會產生數百萬次的呼叫,而我們會記錄每次呼叫。透過過濾非關鍵的呼叫,我們維持了關鍵指標的完整性,而不會對效能造成任何影響。
這項調整提供了更清楚的 Lambda 活動檢視,並顯示了有針對性的變更如何在不影響可觀察性的情況下,達成有意義的成本降低。
總結
透過這項成本最佳化計畫,Arbory Digital 成功地將 Zaxby's 的 Datadog 開支降低了50% ,同時維持了可視性和運作可靠性。透過改進日誌索引、調整 RUM 保留以及稽核無伺服器的調用,我們建立了一個平衡成本與功能的永續系統。
雖然已取得重大進展,但我們仍會持續監控並改善使用模式,以找出更多的效率,並確保 Zaxby's 維持最佳的可觀察性模式。
如需深入瞭解,請參閱Zaxby's Customer Spotlight - Arbory Digital 中我們的其他節約成本工作。
Podcast 講者
喜歡你聽到的嗎?對適合您的產品有疑問?我們很樂意與您討論!聯絡我們