设计原则
- 代码 = 确定性 = 0 幻觉: 所有数字 + 判定 + 阈值都在 Python 代码里, 不让 LLM 算
- 每条结论必须有 rule_id + evidence: 可追溯到具体规则 + 数据源
- 规则版本化: 修改规则在 git 留痕, 历史报告可重现
- 审稿成本: 旧 LLM 1 小时 / 报告 → 现在规则版 5 分钟 / 报告 (只看是否新规则要加)
规则列表
| Rule ID | 描述 | 触发条件 | 数据来源 | 面向 | 严重度 |
|---|
数据 Lineage 流
SQL (dquery)
↓
puller (e.g., partners/pull_data.py)
↓
_partner9.json (raw per-period)
↓
build.py (sanitize NaN, aggregate)
↓
web/data/partners.json (production)
↓
narrative_composer.py (generate_narrative)
↓ + 数据交叉:
├─ attribution_interactions.json (LASSO 协同/挤兑)
├─ attribution_calendar.json (重叠天数)
├─ attribution_bayesian.json (95% CI 显著性)
├─ attribution_results.json (节假日 coef)
├─ evpm_results.json (鲸鱼集中度)
├─ tier_cutoffs.json (动态分位阈值)
↓
narrative dict (含 rule_id + evidence + confidence)
↓
deep_report_generator.py (render HTML)
↓
web/{activity}/deep_analysis_{pid}.html
↓
auto_post_event.py 每天 13:30 自动跑
未来扩展规则候选
- R9: D7/D30 留存断崖 — 当 cohort 留存系数偏离 power-law 拟合 > 20%
- R10: 跨地区方向不一致 (Simpson 悖论) — JP/KR/TW 某指标方向相反时告警
- R11: ROI ranking 突变 — 从 attribution_roi.json 看 top contributor 排名变动
- R12: tier 迁移检测 — 玩家从 small_high → mid 比例突变
- R13: 配表变更影响 — 用 SVN log 关联指标拐点
- R14: 同期活动 ROI 对比 — 此活动 ROI 排名第几
每个新规则只需要在 narrative_composer.py 加 ~15 行代码 + 注册到 RULES_REGISTRY. 增量成本低