Anti-Copilot 評測框架說明書(Eval 1 / 2 / 3)

本文件說明三大評測的動機、方法、評分機制、測資規模、結果與全部圖表,供組員與外部讀者快速理解我們在驗證什麼、怎麼驗證、結論為何。

圖表路徑相對於 backend/tests/eval/。Eval 1、Eval 2 為新版真實資料;Eval 3 為 legacy(舊設計)資料,標註於該節。

0. 共通方法論

項目	內容
LLM-as-Judge(品質評分)	三裁判面板:`gemini-2.5-flash` + `gemini-2.5-pro` + `llama-3.3-70b`(temperature=0),中位數聚合;rubric 五維,各 1–10 分,滿分 50。每維附 anchor 範例(3=Poor / 6=Average / 9=Excellent)強制使用全分布。
確定性指標(非 LLM)	DAG 無環性、無效前置引用率、criteria 覆蓋率(uni+bigram)、時數可行性、重複主題率。用於 LLM-free 的客觀交叉驗證。
Composite Score	`0.60×rubric(正規化) + 0.15×coverage + 0.10×hours + 0.10×(1−dup) + 0.05×ref_validity`,值域 0–1。
統計方法	分析單位為 case / query(同 case 多 run 先聚合,避免偽重複);組間採 paired bootstrap(逐 case 差值)+ 雙尾 p + Holm 多重比較校正;效應量用 paired Cohen's $d_z$;另報 95% CI、CVaR₂₅。
裁判信度	跨 roadmap 的 ICC(2,1)。注意 `llama` 系統性偏寬,故結論以組間相對差異與盲測勝率為主,絕對分數為輔。

Eval 1 — 檢索架構與權重評測(Retrieval Ablation)

動機

RAG 系統若僅用向量檢索,易因「語意相近但難度/實體不符」撈回干擾資料。本評測量化四通道融合(Vector / Keyword(BM25) / Concept(Jaccard) / Salience)各自的邊際貢獻,並在大量干擾下找出可一般化、不過擬合的最佳權重。

方法

語料:55 篇真實學習文件 + 5,000 篇干擾文件(共 5,055)。
查詢:3,000 條,分 8 類(semantic / exact_term / structural / cross_domain / adversarial_distractor / extreme_vague / negation / typo_noise),附 ground-truth 相關文件。
嵌入:真實 gemini-embedding-001(3072 維)。各通道分數先正規化再加權融合,對 5,055 篇排序。
消融組(8 組):

組	權重 V/K/C/S	說明
A	1/0/0/0	Vector only
B	0/1/0/0	Keyword only
C	.69/.31/0/0	V+K
D	.58/.26/.16/0	V+K+C
E	.55/.25/.15/.05	Production(現行)
F	.25/.25/.25/.25	Equal
G	.15/.10/.60/.15	Pragmatic Opt
H	.50/.05/.30/.15	Robust Optimal(CV + maximin)

評分方法

純確定性 IR 指標,逐 query 計算後以 query 為單位平均:NDCG@5、MAP、MRR、Recall@5、Precision@5。

最佳權重 H 以兩道防線選出:(1) 每通道權重下限 0.05(不准歸零);(2) maximin over query categories(最大化「最差類別」分數);並以 5-fold CV 驗證泛化(held-out 與全量差距僅 ~0.001)。

測資數量

語料 5,055、查詢 3,000、組數 8 = 24,000 條 query-組評分(確定性,成本低)。

關鍵結果

組	NDCG@5	MAP	MRR	Recall@5
A Vector	0.809	0.794	0.867	0.801
B Keyword	0.766	0.746	0.815	0.789
E Prod	0.882	0.866	0.916	0.900
F Equal	0.891	0.879	0.925	0.909
H Robust	0.939	0.926	0.970	0.945

H 在所有指標皆最佳,CV 驗證不過擬合。
現行 Production(E)非最優;Keyword 應降至下限,真正撐起穩健度的是 Concept + Salience + Vector。
最大價值在最差類別:E 的最差類別 NDCG@5 僅 0.41,H 提升至 0.72。

全部圖表(14 張)

圖 1 — 總體指標 + 95% CI

各組 NDCG@5 / MAP / MRR / Recall@5,誤差棒為 95% CI。H 全面領先。

results_real_5000/paper_figures/paper_fig1_ablation.png

圖 2 — NDCG@5 分布(box plot)

3,000 query 的分布與變異;H 中位數最高且離群最少。

results_real_5000/paper_figures/paper_fig2_distribution.png

圖 3 — 各類別 NDCG@5 熱圖

8 組 × 8 類別。凸顯各組在 adversarial / negation / typo 等困難類別的弱點。

results_real_5000/paper_figures/paper_fig3_heatmap_v2.png

圖 4 — 多指標 grouped bar(全 8 組)

取代雷達圖的論文導向呈現;一眼比較各組在 5 指標的高低。

results_real_5000/paper_figures/paper_fig4_metrics_grouped.png

圖 5 — 各類別 NDCG@5(全 8 組,worst-case 穩健度)

直接呈現各組在每個 query 類別的表現,看誰在最差類別崩潰、誰穩健。

results_real_5000/paper_figures/paper_fig5_category_robustness.png

圖 6 — 通道邊際貢獻(nested ΔNDCG@5)

A→C(+Keyword)、C→D(+Concept)、D→E(+Salience)、E→H(Prod→Robust)的逐步增益。

results_real_5000/paper_figures/paper_fig6_marginal.png

圖 7 — Critical Difference 圖(5 指標合併)

Friedman + Nemenyi:以平均排名比較全 8 組,橫槓連接「彼此無顯著差異」者(unit = query,N=3,000)。

results_real_5000/paper_figures/paper_cd_all_metrics.png

圖 8–12 — 各指標單獨 CD 圖

NDCG@5 / MAP / MRR / Recall@5 / Precision@5;H 在全部指標平均排名第一。

results_real_5000/paper_figures/paper_cd_ndcg_5.png

results_real_5000/paper_figures/paper_cd_map.png

results_real_5000/paper_figures/paper_cd_mrr.png

results_real_5000/paper_figures/paper_cd_recall_5.png

results_real_5000/paper_figures/paper_cd_precision_5.png

圖 13 — 權重地形等高線(K 固定 0.05,Vector×Concept 平面)

NDCG@5 等高線;最優落在寬廣高原而非尖峰 → 佐證權重穩健、可一般化。星號=平面最優,圓點=E/F/G/H。

results_real_5000/paper_figures/paper_weight_landscape.png

圖 14 — 權重 Simplex 三元圖((V,C,S),K 固定 0.05)

更正式的權重空間呈現;明亮高原再次顯示最優是一片穩健區。

results_real_5000/paper_figures/paper_weight_simplex.png

Eval 2 — 反思/審查機制評測(Review Ablation)

動機

LLM 生成複雜學習地圖時常出現「邏輯斷層」「程度不符」。我們在 LangGraph 流程加入兩種審查:milestone 早期審查與 skillpath 晚期評估(evaluate)。本評測探討各審查階段對品質與災難避免的效益,並衡量品質–成本權衡。

方法(共用草稿的 2×2 因子設計)

每個 (case, run) 只生成兩份草稿,A&C 共用 base、B&D 共用 milestone 草稿,以消除生成隨機性的交絡:

組	設計
A	無審查(base 草稿)
B	僅 milestone 審查
C	base 草稿 + skillpath evaluate
D	完整管線(milestone + evaluate)

並對每個 (case,run) 跑一次 A-vs-D 隨機雙盲 pairwise 全地圖比較。

評分方法

品質:三裁判 rubric(中位數,/50)+ Composite。
災難避免:Critical Failure Rate(任一維 < 門檻);門檻經敏感度分析,主報 t=4(低於 anchor「Poor」)與 t=3,並另列 CVaR₂₅。
盲測:A-vs-D win-rate。
成本:median latency(真實 elapsed)、judge 呼叫數。

測資數量

50 cases(40 normal + 10 stress)× 3 runs × 4 組 = 600 roadmaps(實得 588,147 個完整 (case,run) units);147 筆 A-vs-D pairwise。

Stress (壓力/對抗性) 測資說明

Stress 測資是專門設計來考驗系統防呆與邊界處理能力的刁鑽輸入。例如：

目標與時程極度不符 (Level Mismatch)：初學者要求在 14 小時內用組合語言從零寫出一個作業系統核心。
技術衝突/不可能任務 (Tech Conflict)：要求只使用 HTML 和 CSS 來訓練大型語言模型 (LLM)，嚴禁使用 Python。
超出系統領域 (Out of Domain)：要求學習如何開設實體精品咖啡店、烘豆與門市會計。
目標極度模糊 (Ambiguous Goal)：「我想做點電腦的東西、寫點扣，不知道需要學什麼」。

良好的規劃器面對這些測資時，必須能「辨識出任務的不可能性並大幅縮小範圍」、「溫和糾正技術觀念」或「拒絕無關領域」，而不是盲目地產生一份看似有模有樣卻完全無效的假地圖。

關鍵結果

子集	A	B Milestone	C Skillpath	D Full
Normal composite(中位)	0.702	0.691	0.686	0.672
Stress composite	0.544	0.639	0.508	0.635
Stress 非失敗率@4	22%	44%	22%	44%
A-vs-D 盲測(D 勝率)	—	—	—	61%

無單一全面贏家,依任務難度而定:normal 上 A(無審查)最佳;stress 上 B/D 明顯最佳(災難避免)。
C(skillpath evaluate)一致顯著傷害品質(normal p=0.004、stress p=0.021、整體 p<0.001)→ 此步應檢討/移除。
D = B 的優點 + C 的缺點 → normal 被拖累;B(僅 milestone 審查)為最佳 CP 值。
跨-roadmap IRR ≈ 0.38(偏低),故以組間差異/盲測為主。

全部圖表(10 張)

圖 1 — Composite(per-case 均值 ± 95% CI),normal / stress 雙面板

results_v2/eval2_figures_50case/fig1_composite_ci.png

圖 2 — Δcomposite vs A(配對 95% CI;*=CI 不跨 0 顯著)

凸顯各組相對無審查基準的效果,normal vs stress 分開。

results_v2/eval2_figures_50case/fig2_delta_vs_a.png

圖 3 — Critical Failure Rate(門檻 t=4 與 t=3)

災難避免的核心圖;stress 上 milestone 審查把失敗率自 ~78% 降至 ~56%。

results_v2/eval2_figures_50case/fig3_failure_rate.png

圖 4 — rubric 分數 CDF

隨機優勢視角:曲線越靠右越好。

results_v2/eval2_figures_50case/fig4_cdf.png

圖 5 — A-vs-D 盲測勝率(整體 / normal / stress)

完整管線 D 在盲測中勝率 61%。

results_v2/eval2_figures_50case/fig5_pairwise.png

圖 6 — 裁判校準

各裁判平均總分,揭露 llama 系統性偏寬(說明為何以相對差異為準)。

results_v2/eval2_figures_50case/fig6_judge_calibration.png

圖 7 — 各 rubric 維度(5 維 × 4 組)

看各組在 structural / granularity / progression / actionability / scope 的強弱。

results_v2/eval2_figures_50case/fig7_dimensions.png

圖 8 — Scorecard(每指標贏家標金色)

最直接的「誰比較好」總結:normal→A、stress→B、stress 非失敗→B/D。

results_v2/eval2_figures_50case/fig8_scorecard.png

圖 9 — Latency(真實 elapsed),normal / stress + 分布

A 最快(~8s)、D 最慢(~20s,stress 達 32s)。

results_v2/eval2_figures_50case/fig9_latency.png

圖 10 — 品質 vs Latency 權衡散點

每組品質(composite)對耗時的 CP 值定位。

results_v2/eval2_figures_50case/fig11_quality_latency_tradeoff.png

Eval 2 補充:替代裁判面板對照(不同裁判模型)

與上方原始結果的差異 = 只有「裁判模型」不同,評測設計、測資、流程完全相同。

	原始面板(上方圖)	本節替代面板(下方圖)
裁判 1	gemini-2.5-flash	gemini-2.5-flash
裁判 2	gemini-2.5-pro	claude-haiku-4.5
裁判 3	llama-3.3-70b	gpt-5.4-nano
廠商組合	Google ×2 + Meta	Google + Anthropic + OpenAI(三廠商)
動機	—	降成本、跨廠商多樣性、避免單一家族偏誤;並驗證結論是否不隨裁判面板改變
樣本	50 cases × 3 runs(150 units)	49 cases / 145 完整 units(5 個極端 stress unit 因裁判截斷反覆失敗,已排除)

生成端不變:兩者的 roadmap 都由 gpt-oss-120b 產生;此節僅換「評分用的裁判」。

跨面板結論一致性

結論	原始面板	替代面板	一致?
C(skillpath-evaluate)顯著傷品質	−0.013 p<0.001	−0.014 p<0.001	✅
B/D 在 stress 為正向增益	B +0.088 / D +0.080	B +0.029 / D +0.025	✅ 方向同(替代面板效果較小、未達顯著)
審查降低 stress 失敗率	78%→56%	96%→74%	✅
A-vs-D 盲測 D 勝率	61%	69%	✅
裁判一致性 IRR	0.38(Poor)	0.24(Poor)	兩者皆低

→ 質性結論(C 傷品質、審查利於災難避免、D 盲測勝、裁判一致性低)在兩種面板下皆成立;但確切效果量/顯著性與絕對分數會隨裁判而變(替代面板整體給分較嚴、stress 失敗率更高)。這是一個正向的穩健性證據:結論不依賴特定裁判。

替代面板全部圖表(10 張)

圖 A1 — Composite(per-case 均值 ± 95% CI),normal / stress

results_v2/eval2_figures_3judge/fig1_composite_ci.png

圖 A2 — Δcomposite vs A(配對 95% CI;標籤在長條頂、*=CI 不跨 0)

results_v2/eval2_figures_3judge/fig2_delta_vs_a.png

圖 A3 — Critical Failure Rate(t=4 / t=3)

results_v2/eval2_figures_3judge/fig3_failure_rate.png

圖 A4 — rubric 分數 CDF

results_v2/eval2_figures_3judge/fig4_cdf.png

圖 A5 — A-vs-D 盲測勝率

results_v2/eval2_figures_3judge/fig5_pairwise.png

圖 A6 — 裁判校準(此面板:Haiku 最寬、Nano 最嚴)

results_v2/eval2_figures_3judge/fig6_judge_calibration.png

圖 A7 — 各 rubric 維度(5 維 × 4 組)

results_v2/eval2_figures_3judge/fig7_dimensions.png

圖 A8 — Scorecard(此面板下 B 三項全勝)

results_v2/eval2_figures_3judge/fig8_scorecard.png

圖 A9 — Latency(真實 elapsed)

results_v2/eval2_figures_3judge/fig9_latency.png

圖 A10 — 品質 vs Latency 權衡散點

results_v2/eval2_figures_3judge/fig11_quality_latency_tradeoff.png

Eval 3 — 地圖合併/更新策略評測(Merge Strategy)

⚠️ 本節為 legacy 資料(舊設計):24 cases × 3 runs、每組各自重跑審查(合併策略與抽樣修訂存在交絡)。新版已改為「每 (case,run) 共用同一份 revision」+ content-churn 指標 + per_judge_scores,待重跑後更新。以下結論以舊資料呈現,僅供現況參考。

動機

使用者要「修改」既有地圖時,系統如何更新?全部重產(Replace)會遺失舊有進度(ID);單純追加(Append)會邏輯混亂。本評測比較合併策略,驗證兼顧品質與穩定度(ID 不遺失)的方案。

方法

共用 planner 草稿;五組合併策略:

組	策略
A	無 evaluate(直接用 planner 輸出)
B	Full Replace(現行全量覆蓋)
C	Selective Merge(內容變更才採納,保留原 ID)
D	Append(保留原有 + 追加新項)
E	Ensemble N=3(多次審查取多數一致)

評分方法

品質:三裁判 rubric + Composite + 修訂 vs 原始的雙盲 pairwise(net improvement)。
穩定度:ID 遺失率 / churn rate(title 集合)+ id_preservation;新版另加 content-churn(內容層級變更)。
注意:id_preservation 對 Selective 因程式保留原 ID 而恆高(by-design)。

測資數量(legacy)

24 cases × 3 runs × 5 組 = 347 roadmaps(有效)。

關鍵結果(legacy,中位數)

組	rubric	composite	churn	id_preservation
A NoEval	33.5	0.690	0.000	1.000
B Replace	32.0	0.667	0.060	1.000
C Selective	35.5	0.711	0.075	1.000
D Append	31.8	0.673	0.037	1.000
E Ensemble	31.0	0.659	0.023	0.962

C(Selective)品質最高(composite 0.711),且保留原 ID → 兼顧品質與穩定,符合推薦方向。
Replace / Append / Ensemble 品質均不及 Selective。

全部圖表(7 張)

圖 1 — Merge 總結 (Summary)

各策略在 rubric、composite、churn 等關鍵指標上的總結概覽。

圖 2 — 各 rubric 維度 (Dimensions)

拆解五個評分維度，比較各合併策略的表現細節。

圖 3 — Composite 綜合評分 (Composite)

不同合併策略在綜合分數上的絕對表現。

圖 4 — Impact Delta (品質增減)

顯示各策略相較於基準線的淨改善 (Net Improvement) 與信心水準。

圖 5 — 分數分布盒鬚圖 (Boxplot)

展示各策略的品質分數離散程度、中位數及極端值。

圖 6 — 單一測資分析 (By Case)

拆解到各別測資 (case)，觀察策略在不同情境下的穩定性與勝負。

圖 7 — 簡報用總結 (Presentation)

高階簡報用的視覺化圖表，強調合併策略的綜合業務價值與穩定度折衷。

核心結論摘要

Eval 1:採用 robust 權重 V0.50 / K0.05 / C0.30 / S0.15(經 CV 驗證、worst-case 穩健),優於現行生產配置。
Eval 2:milestone 審查(B) 是最佳 CP 值(stress 災難避免 + 盲測勝出,normal 幾乎不損);skillpath evaluate 應檢討移除。
Eval 3(legacy):Selective Merge 品質最佳且維持 ID 穩定;待以新設計重跑確認。

</content>