Confidence (信頼度ダッシュボード)¶

/v1/stats/confidence はツール単位の 発見確率 (見つけられる確率) と 再利用確率 (実 action に変わる確率) を統計的に推定し、95% 区間と一緒に公開する。

1. 数値目標¶

指標	T+90d	Y1
Discovery	90%	95%
Use	80%	92%

Discovery_T = P(found_result | invoked)

Use_T = P(returned_within_7d | first_invocation)

7 日 window は「retention の確認」を「one-shot trial」と切り分けるための閾値。

各 tool の確率を独立 Bernoulli プロセスとしてモデル化。

Beta(1, 1) + 80 hit / 100 trial:

posterior     = Beta(81, 21)
posterior mean = 0.7941
95% CI        ≈ [0.711, 0.866]

事後平均 79.4% は Use の T+90d 目標 (80%) をわずかに下回る。「目標 80% を下回ったかどうか」は trial を増やさないと統計的に判断できない (= targets are earned by data, not preloaded)。

公開 audience cohort: tax_advisor / admin_scrivener / smb / vc / developer / other (= 5 audience に分類できなかった残余)
それより細かい (個別顧客に近い) granularity は 公開しない

discovery_weighted = Σ (discovery_T × trials_T) / Σ trials_T

呼び出し数の少ない tool が 100% でヘッドラインを引き上げる artifact を回避。

場所	更新タイミング
`/v1/stats/confidence` (live)	リクエスト時に live SQL + 5 分 cache
`analytics/confidence_<DATE>.json` (日次スナップショット)	日次 cron
`site/confidence.html` (公開ダッシュボード)	live + 履歴

新 tool の cold-start: trial 数小だと CI 幅が広く、ヘッドラインを引き上げる統計的判断が難しい。trial = 30 を超えるまでは目視評価
Use の 7 日 window は固定: 業界によっては 14 日が妥当な可能性、再評価ターゲット = T+180d
Discovery と Use は独立計算: 結合確率 P(use | discovery) は推定せず周辺確率のみ。Y1 で結合 model に拡張予定