Anti-Copilot 評測框架說明書(Eval 1 / 2 / 3)

本文件說明三大評測的動機、方法、評分機制、測資規模、結果與全部圖表,供組員與外部讀者快速理解我們在驗證什麼、怎麼驗證、結論為何。

圖表路徑相對於 backend/tests/eval/。Eval 1、Eval 2 為新版真實資料;Eval 3 為 legacy(舊設計)資料,標註於該節。


0. 共通方法論

項目 內容
LLM-as-Judge(品質評分)三裁判面板:gemini-2.5-flash + gemini-2.5-pro + llama-3.3-70b(temperature=0),中位數聚合;rubric 五維,各 1–10 分,滿分 50。每維附 anchor 範例(3=Poor / 6=Average / 9=Excellent)強制使用全分布。
確定性指標(非 LLM)DAG 無環性、無效前置引用率、criteria 覆蓋率(uni+bigram)、時數可行性、重複主題率。用於 LLM-free 的客觀交叉驗證。
Composite Score0.60×rubric(正規化) + 0.15×coverage + 0.10×hours + 0.10×(1−dup) + 0.05×ref_validity,值域 0–1。
統計方法分析單位為 case / query(同 case 多 run 先聚合,避免偽重複);組間採 paired bootstrap(逐 case 差值)+ 雙尾 p + Holm 多重比較校正;效應量用 paired Cohen's $d_z$;另報 95% CI、CVaR₂₅。
裁判信度跨 roadmap 的 ICC(2,1)。注意 llama 系統性偏寬,故結論以組間相對差異盲測勝率為主,絕對分數為輔。

Eval 1 — 檢索架構與權重評測(Retrieval Ablation)

動機

RAG 系統若僅用向量檢索,易因「語意相近但難度/實體不符」撈回干擾資料。本評測量化四通道融合(Vector / Keyword(BM25) / Concept(Jaccard) / Salience)各自的邊際貢獻,並在大量干擾下找出可一般化、不過擬合的最佳權重。

方法

權重 V/K/C/S 說明
A1/0/0/0Vector only
B0/1/0/0Keyword only
C.69/.31/0/0V+K
D.58/.26/.16/0V+K+C
E.55/.25/.15/.05Production(現行)
F.25/.25/.25/.25Equal
G.15/.10/.60/.15Pragmatic Opt
H.50/.05/.30/.15Robust Optimal(CV + maximin)

評分方法

純確定性 IR 指標,逐 query 計算後以 query 為單位平均:NDCG@5、MAP、MRR、Recall@5、Precision@5

最佳權重 H 以兩道防線選出:(1) 每通道權重下限 0.05(不准歸零);(2) maximin over query categories(最大化「最差類別」分數);並以 5-fold CV 驗證泛化(held-out 與全量差距僅 ~0.001)。

測資數量

語料 5,055、查詢 3,000、組數 8 = 24,000 條 query-組 評分(確定性,成本低)。

關鍵結果

NDCG@5 MAP MRR Recall@5
A Vector0.8090.7940.8670.801
B Keyword0.7660.7460.8150.789
E Prod0.8820.8660.9160.900
F Equal0.8910.8790.9250.909
H Robust0.9390.9260.9700.945

全部圖表(14 張)

圖 1 — 總體指標 + 95% CI

各組 NDCG@5 / MAP / MRR / Recall@5,誤差棒為 95% CI。H 全面領先。

results_real_5000/paper_figures/paper_fig1_ablation.png

圖 2 — NDCG@5 分布(box plot)

3,000 query 的分布與變異;H 中位數最高且離群最少。

results_real_5000/paper_figures/paper_fig2_distribution.png

圖 3 — 各類別 NDCG@5 熱圖

8 組 × 8 類別。凸顯各組在 adversarial / negation / typo 等困難類別的弱點。

results_real_5000/paper_figures/paper_fig3_heatmap_v2.png

圖 4 — 多指標 grouped bar(全 8 組)

取代雷達圖的論文導向呈現;一眼比較各組在 5 指標的高低。

results_real_5000/paper_figures/paper_fig4_metrics_grouped.png

圖 5 — 各類別 NDCG@5(全 8 組,worst-case 穩健度)

直接呈現各組在每個 query 類別的表現,看誰在最差類別崩潰、誰穩健。

results_real_5000/paper_figures/paper_fig5_category_robustness.png

圖 6 — 通道邊際貢獻(nested ΔNDCG@5)

A→C(+Keyword)、C→D(+Concept)、D→E(+Salience)、E→H(Prod→Robust)的逐步增益。

results_real_5000/paper_figures/paper_fig6_marginal.png

圖 7 — Critical Difference 圖(5 指標合併)

Friedman + Nemenyi:以平均排名比較全 8 組,橫槓連接「彼此無顯著差異」者(unit = query,N=3,000)。

results_real_5000/paper_figures/paper_cd_all_metrics.png

圖 8–12 — 各指標單獨 CD 圖

NDCG@5 / MAP / MRR / Recall@5 / Precision@5;H 在全部指標平均排名第一。

results_real_5000/paper_figures/paper_cd_ndcg_5.png
results_real_5000/paper_figures/paper_cd_map.png
results_real_5000/paper_figures/paper_cd_mrr.png
results_real_5000/paper_figures/paper_cd_recall_5.png
results_real_5000/paper_figures/paper_cd_precision_5.png

圖 13 — 權重地形等高線(K 固定 0.05,Vector×Concept 平面)

NDCG@5 等高線;最優落在寬廣高原而非尖峰 → 佐證權重穩健、可一般化。星號=平面最優,圓點=E/F/G/H。

results_real_5000/paper_figures/paper_weight_landscape.png

圖 14 — 權重 Simplex 三元圖((V,C,S),K 固定 0.05)

更正式的權重空間呈現;明亮高原再次顯示最優是一片穩健區。

results_real_5000/paper_figures/paper_weight_simplex.png

Eval 2 — 反思/審查機制評測(Review Ablation)

動機

LLM 生成複雜學習地圖時常出現「邏輯斷層」「程度不符」。我們在 LangGraph 流程加入兩種審查:milestone 早期審查skillpath 晚期評估(evaluate)。本評測探討各審查階段對品質與災難避免的效益,並衡量品質–成本權衡。

方法(共用草稿的 2×2 因子設計)

每個 (case, run) 只生成兩份草稿,A&C 共用 base、B&D 共用 milestone 草稿,以消除生成隨機性的交絡:

設計
A無審查(base 草稿)
B僅 milestone 審查
Cbase 草稿 + skillpath evaluate
D完整管線(milestone + evaluate)

並對每個 (case,run) 跑一次 A-vs-D 隨機雙盲 pairwise 全地圖比較。

評分方法

測資數量

50 cases(40 normal + 10 stress)× 3 runs × 4 組 = 600 roadmaps(實得 588,147 個完整 (case,run) units);147 筆 A-vs-D pairwise。

Stress 測資是專門設計來考驗系統防呆與邊界處理能力的刁鑽輸入。例如:

良好的規劃器面對這些測資時,必須能「辨識出任務的不可能性並大幅縮小範圍」、「溫和糾正技術觀念」或「拒絕無關領域」,而不是盲目地產生一份看似有模有樣卻完全無效的假地圖。

關鍵結果

子集 A B Milestone C Skillpath D Full
Normal composite(中位)0.7020.6910.6860.672
Stress composite0.5440.6390.5080.635
Stress 非失敗率@422%44%22%44%
A-vs-D 盲測(D 勝率)61%

全部圖表(10 張)

圖 1 — Composite(per-case 均值 ± 95% CI),normal / stress 雙面板

results_v2/eval2_figures_50case/fig1_composite_ci.png

圖 2 — Δcomposite vs A(配對 95% CI;*=CI 不跨 0 顯著)

凸顯各組相對無審查基準的效果,normal vs stress 分開。

results_v2/eval2_figures_50case/fig2_delta_vs_a.png

圖 3 — Critical Failure Rate(門檻 t=4 與 t=3)

災難避免的核心圖;stress 上 milestone 審查把失敗率自 ~78% 降至 ~56%。

results_v2/eval2_figures_50case/fig3_failure_rate.png

圖 4 — rubric 分數 CDF

隨機優勢視角:曲線越靠右越好。

results_v2/eval2_figures_50case/fig4_cdf.png

圖 5 — A-vs-D 盲測勝率(整體 / normal / stress)

完整管線 D 在盲測中勝率 61%。

results_v2/eval2_figures_50case/fig5_pairwise.png

圖 6 — 裁判校準

各裁判平均總分,揭露 llama 系統性偏寬(說明為何以相對差異為準)。

results_v2/eval2_figures_50case/fig6_judge_calibration.png

圖 7 — 各 rubric 維度(5 維 × 4 組)

看各組在 structural / granularity / progression / actionability / scope 的強弱。

results_v2/eval2_figures_50case/fig7_dimensions.png

圖 8 — Scorecard(每指標贏家標金色)

最直接的「誰比較好」總結:normal→A、stress→B、stress 非失敗→B/D。

results_v2/eval2_figures_50case/fig8_scorecard.png

圖 9 — Latency(真實 elapsed),normal / stress + 分布

A 最快(~8s)、D 最慢(~20s,stress 達 32s)。

results_v2/eval2_figures_50case/fig9_latency.png

圖 10 — 品質 vs Latency 權衡散點

每組品質(composite)對耗時的 CP 值定位。

results_v2/eval2_figures_50case/fig11_quality_latency_tradeoff.png

Eval 2 補充:替代裁判面板對照(不同裁判模型)

與上方原始結果的差異 = 只有「裁判模型」不同,評測設計、測資、流程完全相同。

原始面板(上方圖) 本節替代面板(下方圖)
裁判 1gemini-2.5-flashgemini-2.5-flash
裁判 2gemini-2.5-proclaude-haiku-4.5
裁判 3llama-3.3-70bgpt-5.4-nano
廠商組合Google ×2 + MetaGoogle + Anthropic + OpenAI(三廠商)
動機降成本、跨廠商多樣性、避免單一家族偏誤;並驗證結論是否不隨裁判面板改變
樣本50 cases × 3 runs(150 units)49 cases / 145 完整 units(5 個極端 stress unit 因裁判截斷反覆失敗,已排除)

生成端不變:兩者的 roadmap 都由 gpt-oss-120b 產生;此節僅換「評分用的裁判」。

跨面板結論一致性

結論 原始面板 替代面板 一致?
C(skillpath-evaluate)顯著傷品質−0.013 p<0.001−0.014 p<0.001
B/D 在 stress 為正向增益B +0.088 / D +0.080B +0.029 / D +0.025✅ 方向同(替代面板效果較小、未達顯著)
審查降低 stress 失敗率78%→56%96%→74%
A-vs-D 盲測 D 勝率61%69%
裁判一致性 IRR0.38(Poor)0.24(Poor)兩者皆低

質性結論(C 傷品質、審查利於災難避免、D 盲測勝、裁判一致性低)在兩種面板下皆成立;但確切效果量/顯著性與絕對分數會隨裁判而變(替代面板整體給分較嚴、stress 失敗率更高)。這是一個正向的穩健性證據:結論不依賴特定裁判。

替代面板全部圖表(10 張)

圖 A1 — Composite(per-case 均值 ± 95% CI),normal / stress

results_v2/eval2_figures_3judge/fig1_composite_ci.png

圖 A2 — Δcomposite vs A(配對 95% CI;標籤在長條頂、*=CI 不跨 0)

results_v2/eval2_figures_3judge/fig2_delta_vs_a.png

圖 A3 — Critical Failure Rate(t=4 / t=3)

results_v2/eval2_figures_3judge/fig3_failure_rate.png

圖 A4 — rubric 分數 CDF

results_v2/eval2_figures_3judge/fig4_cdf.png

圖 A5 — A-vs-D 盲測勝率

results_v2/eval2_figures_3judge/fig5_pairwise.png

圖 A6 — 裁判校準(此面板:Haiku 最寬、Nano 最嚴)

results_v2/eval2_figures_3judge/fig6_judge_calibration.png

圖 A7 — 各 rubric 維度(5 維 × 4 組)

results_v2/eval2_figures_3judge/fig7_dimensions.png

圖 A8 — Scorecard(此面板下 B 三項全勝)

results_v2/eval2_figures_3judge/fig8_scorecard.png

圖 A9 — Latency(真實 elapsed)

results_v2/eval2_figures_3judge/fig9_latency.png

圖 A10 — 品質 vs Latency 權衡散點

results_v2/eval2_figures_3judge/fig11_quality_latency_tradeoff.png

Eval 3 — 地圖合併/更新策略評測(Merge Strategy)

⚠️ 本節為 legacy 資料(舊設計):24 cases × 3 runs、每組各自重跑審查(合併策略與抽樣修訂存在交絡)。新版已改為「每 (case,run) 共用同一份 revision」+ content-churn 指標 + per_judge_scores,待重跑後更新。以下結論以舊資料呈現,僅供現況參考。

動機

使用者要「修改」既有地圖時,系統如何更新?全部重產(Replace)會遺失舊有進度(ID);單純追加(Append)會邏輯混亂。本評測比較合併策略,驗證兼顧品質與穩定度(ID 不遺失)的方案。

方法

共用 planner 草稿;五組合併策略:

策略
A無 evaluate(直接用 planner 輸出)
BFull Replace(現行全量覆蓋)
CSelective Merge(內容變更才採納,保留原 ID)
DAppend(保留原有 + 追加新項)
EEnsemble N=3(多次審查取多數一致)

評分方法

測資數量(legacy)

24 cases × 3 runs × 5 組 = 347 roadmaps(有效)

關鍵結果(legacy,中位數)

rubric composite churn id_preservation
A NoEval33.50.6900.0001.000
B Replace32.00.6670.0601.000
C Selective35.50.7110.0751.000
D Append31.80.6730.0371.000
E Ensemble31.00.6590.0230.962

全部圖表(7 張)

圖 1 — Merge 總結 (Summary)

各策略在 rubric、composite、churn 等關鍵指標上的總結概覽。

results_v3/eval3_merge_summary.png

圖 2 — 各 rubric 維度 (Dimensions)

拆解五個評分維度,比較各合併策略的表現細節。

results_v3/eval3_merge_dimensions.png

圖 3 — Composite 綜合評分 (Composite)

不同合併策略在綜合分數上的絕對表現。

results_v3/eval3_merge_composite.png

圖 4 — Impact Delta (品質增減)

顯示各策略相較於基準線的淨改善 (Net Improvement) 與信心水準。

results_v3/eval3_impact_delta.png

圖 5 — 分數分布盒鬚圖 (Boxplot)

展示各策略的品質分數離散程度、中位數及極端值。

results_v3/eval3_merge_boxplot.png

圖 6 — 單一測資分析 (By Case)

拆解到各別測資 (case),觀察策略在不同情境下的穩定性與勝負。

results_v3/eval3_merge_by_case.png

圖 7 — 簡報用總結 (Presentation)

高階簡報用的視覺化圖表,強調合併策略的綜合業務價值與穩定度折衷。

results_v3/presentation_eval3_prod.png

核心結論摘要

</content>