本文件說明三大評測的動機、方法、評分機制、測資規模、結果與全部圖表,供組員與外部讀者快速理解我們在驗證什麼、怎麼驗證、結論為何。
圖表路徑相對於
backend/tests/eval/。Eval 1、Eval 2 為新版真實資料;Eval 3 為 legacy(舊設計)資料,標註於該節。
| 項目 | 內容 |
|---|---|
| LLM-as-Judge(品質評分) | 三裁判面板:gemini-2.5-flash + gemini-2.5-pro + llama-3.3-70b(temperature=0),中位數聚合;rubric 五維,各 1–10 分,滿分 50。每維附 anchor 範例(3=Poor / 6=Average / 9=Excellent)強制使用全分布。 |
| 確定性指標(非 LLM) | DAG 無環性、無效前置引用率、criteria 覆蓋率(uni+bigram)、時數可行性、重複主題率。用於 LLM-free 的客觀交叉驗證。 |
| Composite Score | 0.60×rubric(正規化) + 0.15×coverage + 0.10×hours + 0.10×(1−dup) + 0.05×ref_validity,值域 0–1。 |
| 統計方法 | 分析單位為 case / query(同 case 多 run 先聚合,避免偽重複);組間採 paired bootstrap(逐 case 差值)+ 雙尾 p + Holm 多重比較校正;效應量用 paired Cohen's $d_z$;另報 95% CI、CVaR₂₅。 |
| 裁判信度 | 跨 roadmap 的 ICC(2,1)。注意 llama 系統性偏寬,故結論以組間相對差異與盲測勝率為主,絕對分數為輔。 |
RAG 系統若僅用向量檢索,易因「語意相近但難度/實體不符」撈回干擾資料。本評測量化四通道融合(Vector / Keyword(BM25) / Concept(Jaccard) / Salience)各自的邊際貢獻,並在大量干擾下找出可一般化、不過擬合的最佳權重。
gemini-embedding-001(3072 維)。各通道分數先正規化再加權融合,對 5,055 篇排序。| 組 | 權重 V/K/C/S | 說明 |
|---|---|---|
| A | 1/0/0/0 | Vector only |
| B | 0/1/0/0 | Keyword only |
| C | .69/.31/0/0 | V+K |
| D | .58/.26/.16/0 | V+K+C |
| E | .55/.25/.15/.05 | Production(現行) |
| F | .25/.25/.25/.25 | Equal |
| G | .15/.10/.60/.15 | Pragmatic Opt |
| H | .50/.05/.30/.15 | Robust Optimal(CV + maximin) |
純確定性 IR 指標,逐 query 計算後以 query 為單位平均:NDCG@5、MAP、MRR、Recall@5、Precision@5。
最佳權重 H 以兩道防線選出:(1) 每通道權重下限 0.05(不准歸零);(2) maximin over query categories(最大化「最差類別」分數);並以 5-fold CV 驗證泛化(held-out 與全量差距僅 ~0.001)。
語料 5,055、查詢 3,000、組數 8 = 24,000 條 query-組 評分(確定性,成本低)。
| 組 | NDCG@5 | MAP | MRR | Recall@5 |
|---|---|---|---|---|
| A Vector | 0.809 | 0.794 | 0.867 | 0.801 |
| B Keyword | 0.766 | 0.746 | 0.815 | 0.789 |
| E Prod | 0.882 | 0.866 | 0.916 | 0.900 |
| F Equal | 0.891 | 0.879 | 0.925 | 0.909 |
| H Robust | 0.939 | 0.926 | 0.970 | 0.945 |
圖 1 — 總體指標 + 95% CI
各組 NDCG@5 / MAP / MRR / Recall@5,誤差棒為 95% CI。H 全面領先。
圖 2 — NDCG@5 分布(box plot)
3,000 query 的分布與變異;H 中位數最高且離群最少。
圖 3 — 各類別 NDCG@5 熱圖
8 組 × 8 類別。凸顯各組在 adversarial / negation / typo 等困難類別的弱點。
圖 4 — 多指標 grouped bar(全 8 組)
取代雷達圖的論文導向呈現;一眼比較各組在 5 指標的高低。
圖 5 — 各類別 NDCG@5(全 8 組,worst-case 穩健度)
直接呈現各組在每個 query 類別的表現,看誰在最差類別崩潰、誰穩健。
圖 6 — 通道邊際貢獻(nested ΔNDCG@5)
A→C(+Keyword)、C→D(+Concept)、D→E(+Salience)、E→H(Prod→Robust)的逐步增益。
圖 7 — Critical Difference 圖(5 指標合併)
Friedman + Nemenyi:以平均排名比較全 8 組,橫槓連接「彼此無顯著差異」者(unit = query,N=3,000)。
圖 8–12 — 各指標單獨 CD 圖
NDCG@5 / MAP / MRR / Recall@5 / Precision@5;H 在全部指標平均排名第一。
圖 13 — 權重地形等高線(K 固定 0.05,Vector×Concept 平面)
NDCG@5 等高線;最優落在寬廣高原而非尖峰 → 佐證權重穩健、可一般化。星號=平面最優,圓點=E/F/G/H。
圖 14 — 權重 Simplex 三元圖((V,C,S),K 固定 0.05)
更正式的權重空間呈現;明亮高原再次顯示最優是一片穩健區。
LLM 生成複雜學習地圖時常出現「邏輯斷層」「程度不符」。我們在 LangGraph 流程加入兩種審查:milestone 早期審查與 skillpath 晚期評估(evaluate)。本評測探討各審查階段對品質與災難避免的效益,並衡量品質–成本權衡。
每個 (case, run) 只生成兩份草稿,A&C 共用 base、B&D 共用 milestone 草稿,以消除生成隨機性的交絡:
| 組 | 設計 |
|---|---|
| A | 無審查(base 草稿) |
| B | 僅 milestone 審查 |
| C | base 草稿 + skillpath evaluate |
| D | 完整管線(milestone + evaluate) |
並對每個 (case,run) 跑一次 A-vs-D 隨機雙盲 pairwise 全地圖比較。
50 cases(40 normal + 10 stress)× 3 runs × 4 組 = 600 roadmaps(實得 588,147 個完整 (case,run) units);147 筆 A-vs-D pairwise。
- Stress (壓力/對抗性) 測資說明
Stress 測資是專門設計來考驗系統防呆與邊界處理能力的刁鑽輸入。例如:
- 目標與時程極度不符 (Level Mismatch):初學者要求在 14 小時內用組合語言從零寫出一個作業系統核心。
- 技術衝突/不可能任務 (Tech Conflict):要求只使用 HTML 和 CSS 來訓練大型語言模型 (LLM),嚴禁使用 Python。
- 超出系統領域 (Out of Domain):要求學習如何開設實體精品咖啡店、烘豆與門市會計。
- 目標極度模糊 (Ambiguous Goal):「我想做點電腦的東西、寫點扣,不知道需要學什麼」。
良好的規劃器面對這些測資時,必須能「辨識出任務的不可能性並大幅縮小範圍」、「溫和糾正技術觀念」或「拒絕無關領域」,而不是盲目地產生一份看似有模有樣卻完全無效的假地圖。
| 子集 | A | B Milestone | C Skillpath | D Full |
|---|---|---|---|---|
| Normal composite(中位) | 0.702 | 0.691 | 0.686 | 0.672 |
| Stress composite | 0.544 | 0.639 | 0.508 | 0.635 |
| Stress 非失敗率@4 | 22% | 44% | 22% | 44% |
| A-vs-D 盲測(D 勝率) | — | — | — | 61% |
圖 1 — Composite(per-case 均值 ± 95% CI),normal / stress 雙面板
圖 2 — Δcomposite vs A(配對 95% CI;*=CI 不跨 0 顯著)
凸顯各組相對無審查基準的效果,normal vs stress 分開。
圖 3 — Critical Failure Rate(門檻 t=4 與 t=3)
災難避免的核心圖;stress 上 milestone 審查把失敗率自 ~78% 降至 ~56%。
圖 4 — rubric 分數 CDF
隨機優勢視角:曲線越靠右越好。
圖 5 — A-vs-D 盲測勝率(整體 / normal / stress)
完整管線 D 在盲測中勝率 61%。
圖 6 — 裁判校準
各裁判平均總分,揭露 llama 系統性偏寬(說明為何以相對差異為準)。
圖 7 — 各 rubric 維度(5 維 × 4 組)
看各組在 structural / granularity / progression / actionability / scope 的強弱。
圖 8 — Scorecard(每指標贏家標金色)
最直接的「誰比較好」總結:normal→A、stress→B、stress 非失敗→B/D。
圖 9 — Latency(真實 elapsed),normal / stress + 分布
A 最快(~8s)、D 最慢(~20s,stress 達 32s)。
圖 10 — 品質 vs Latency 權衡散點
每組品質(composite)對耗時的 CP 值定位。
與上方原始結果的差異 = 只有「裁判模型」不同,評測設計、測資、流程完全相同。
| 原始面板(上方圖) | 本節替代面板(下方圖) | |
|---|---|---|
| 裁判 1 | gemini-2.5-flash | gemini-2.5-flash |
| 裁判 2 | gemini-2.5-pro | claude-haiku-4.5 |
| 裁判 3 | llama-3.3-70b | gpt-5.4-nano |
| 廠商組合 | Google ×2 + Meta | Google + Anthropic + OpenAI(三廠商) |
| 動機 | — | 降成本、跨廠商多樣性、避免單一家族偏誤;並驗證結論是否不隨裁判面板改變 |
| 樣本 | 50 cases × 3 runs(150 units) | 49 cases / 145 完整 units(5 個極端 stress unit 因裁判截斷反覆失敗,已排除) |
生成端不變:兩者的 roadmap 都由 gpt-oss-120b 產生;此節僅換「評分用的裁判」。
| 結論 | 原始面板 | 替代面板 | 一致? |
|---|---|---|---|
| C(skillpath-evaluate)顯著傷品質 | −0.013 p<0.001 | −0.014 p<0.001 | ✅ |
| B/D 在 stress 為正向增益 | B +0.088 / D +0.080 | B +0.029 / D +0.025 | ✅ 方向同(替代面板效果較小、未達顯著) |
| 審查降低 stress 失敗率 | 78%→56% | 96%→74% | ✅ |
| A-vs-D 盲測 D 勝率 | 61% | 69% | ✅ |
| 裁判一致性 IRR | 0.38(Poor) | 0.24(Poor) | 兩者皆低 |
→ 質性結論(C 傷品質、審查利於災難避免、D 盲測勝、裁判一致性低)在兩種面板下皆成立;但確切效果量/顯著性與絕對分數會隨裁判而變(替代面板整體給分較嚴、stress 失敗率更高)。這是一個正向的穩健性證據:結論不依賴特定裁判。
圖 A1 — Composite(per-case 均值 ± 95% CI),normal / stress
圖 A2 — Δcomposite vs A(配對 95% CI;標籤在長條頂、*=CI 不跨 0)
圖 A3 — Critical Failure Rate(t=4 / t=3)
圖 A4 — rubric 分數 CDF
圖 A5 — A-vs-D 盲測勝率
圖 A6 — 裁判校準(此面板:Haiku 最寬、Nano 最嚴)
圖 A7 — 各 rubric 維度(5 維 × 4 組)
圖 A8 — Scorecard(此面板下 B 三項全勝)
圖 A9 — Latency(真實 elapsed)
圖 A10 — 品質 vs Latency 權衡散點
⚠️ 本節為 legacy 資料(舊設計):24 cases × 3 runs、每組各自重跑審查(合併策略與抽樣修訂存在交絡)。新版已改為「每 (case,run) 共用同一份 revision」+ content-churn 指標 + per_judge_scores,待重跑後更新。以下結論以舊資料呈現,僅供現況參考。
使用者要「修改」既有地圖時,系統如何更新?全部重產(Replace)會遺失舊有進度(ID);單純追加(Append)會邏輯混亂。本評測比較合併策略,驗證兼顧品質與穩定度(ID 不遺失)的方案。
共用 planner 草稿;五組合併策略:
| 組 | 策略 |
|---|---|
| A | 無 evaluate(直接用 planner 輸出) |
| B | Full Replace(現行全量覆蓋) |
| C | Selective Merge(內容變更才採納,保留原 ID) |
| D | Append(保留原有 + 追加新項) |
| E | Ensemble N=3(多次審查取多數一致) |
id_preservation 對 Selective 因程式保留原 ID 而恆高(by-design)。24 cases × 3 runs × 5 組 = 347 roadmaps(有效)。
| 組 | rubric | composite | churn | id_preservation |
|---|---|---|---|---|
| A NoEval | 33.5 | 0.690 | 0.000 | 1.000 |
| B Replace | 32.0 | 0.667 | 0.060 | 1.000 |
| C Selective | 35.5 | 0.711 | 0.075 | 1.000 |
| D Append | 31.8 | 0.673 | 0.037 | 1.000 |
| E Ensemble | 31.0 | 0.659 | 0.023 | 0.962 |
圖 1 — Merge 總結 (Summary)
各策略在 rubric、composite、churn 等關鍵指標上的總結概覽。
圖 2 — 各 rubric 維度 (Dimensions)
拆解五個評分維度,比較各合併策略的表現細節。
圖 3 — Composite 綜合評分 (Composite)
不同合併策略在綜合分數上的絕對表現。
圖 4 — Impact Delta (品質增減)
顯示各策略相較於基準線的淨改善 (Net Improvement) 與信心水準。
圖 5 — 分數分布盒鬚圖 (Boxplot)
展示各策略的品質分數離散程度、中位數及極端值。
圖 6 — 單一測資分析 (By Case)
拆解到各別測資 (case),觀察策略在不同情境下的穩定性與勝負。
圖 7 — 簡報用總結 (Presentation)
高階簡報用的視覺化圖表,強調合併策略的綜合業務價值與穩定度折衷。
核心結論摘要
</content>