[ PROMPT_NODE_22272 ]
常见工作流
[ SKILL_DOCUMENTATION ]
# 常见工作流
## 事故分类 (Incident Triage)
调查生产问题的分步工作流。
bash
# 1. 快速错误概览
npx @leoflores/datadog-cli errors --from 1h --pretty
# 2. 这是新问题吗?与上一周期比较
npx @leoflores/datadog-cli logs compare --query "status:error" --period 1h --pretty
# 3. 查找错误模式
npx @leoflores/datadog-cli logs patterns --query "status:error" --from 1h --pretty
# 4. 按服务缩小范围
npx @leoflores/datadog-cli logs search --query "status:error service:payment-api" --from 1h --pretty
# 5. 获取特定时间戳周围的上下文
npx @leoflores/datadog-cli logs context --timestamp "2024-01-15T10:30:00Z" --service api --before 5m --after 2m --pretty
# 6. 跟踪分布式追踪
npx @leoflores/datadog-cli logs trace --id "TRACE_ID" --pretty
## 实时调试
在日志到达时进行监控。
bash
# 流式传输所有错误
npx @leoflores/datadog-cli logs tail --query "status:error" --pretty
# 观察特定服务
npx @leoflores/datadog-cli logs tail --query "service:api status:error" --pretty
# 监控部署
npx @leoflores/datadog-cli logs tail --query "service:deploy" --pretty
## 服务健康检查
评估整体服务健康状况。
bash
# 列出所有服务
npx @leoflores/datadog-cli services --from 24h --pretty
# 检查服务的错误分布
npx @leoflores/datadog-cli logs agg --query "service:api" --facet status --from 1h --pretty
# 检查 CPU/内存使用情况
npx @leoflores/datadog-cli metrics query --query "avg:system.cpu.user{service:api}" --from 1h --pretty
npx @leoflores/datadog-cli metrics query --query "avg:system.mem.used{service:api}" --from 1h --pretty
# 服务错误摘要
npx @leoflores/datadog-cli errors --service api --from 24h --pretty
## 导出以供共享
将结果保存到文件以供报告或共享。
bash
# 保存搜索结果
npx @leoflores/datadog-cli logs search --query "status:error" --from 1h --output errors.json --pretty
# 保存错误摘要
npx @leoflores/datadog-cli errors --from 24h --output error-report.json --pretty
# 保存指标数据
npx @leoflores/datadog-cli metrics query --query "avg:system.cpu.user{*}" --from 24h --output cpu-metrics.json --pretty
## 多查询调查
并行运行多个查询以获得全面视图。
bash
# 比较跨服务的错误类型
npx @leoflores/datadog-cli logs multi
--queries "api-errors:service:api status:error,payment-errors:service:payment status:error,au