2025-12-25 機械学習勉強会

今週のTOPIC

※ [論文] [blog] など何に関するTOPICなのかパッと見で分かるようにしましょう。
技術的に学びのあるトピックを解説する時間にできると🙆(AIツール紹介等はslack channelでの共有など別機会にて推奨)
出典を埋め込みURLにしましょう。

@Naoto Shimakoshi

[論文] Adaptation of Agentic AI

  • Agentを適応 (持続的に賢くする)にどうしたらいいかというのを体系的にまとめた研究。
  • Agentの適応方法は以下の4つに分けられる。
    • A1、A2: Toolは固定で、Toolの使い方を模倣するか環境のoutputから学習するか
    • T1、T2: Agentは固定て、Toolが正しい出力を出せるように模倣するか、環境のoutputから強化学習するか
  • A1とA2の違い
  • T1とT2の違い
  • それぞれの戦略はトレードオフの関係にあるので、タスクや制約に応じて戦略的に選択・組み合わせが必要
    • A1は特定環境に過学習しやすい
    • A2はCatastrophic Forgettingが起きやすい。
    • T1は汎用的に訓練されているから汎化しやすい。
    • T2はAgentは固定なので、変にドメイン間転移をしない。
  • 既存の研究をこのフレームワークに落とし込むことができる
  • Agent Adaptation
    • A1の歴史
      • 初期(Toolformer時代): 自己教師あり学習でAPI呼び出しを学習(パープレキシティ削減を指標)
      • Golden Answer時代: 正解との一致を基準とした学習(TRICE, ToolAlpaca, TP-LLaMA)
      • Golden Format時代: 構造的正確性を重視(Gorilla: ASTベースの評価)
      • Direct Execution時代: 環境からの検証可能なフィードバックを直接利用(CodeAct, NExT, AutoTools)
    • A2の歴史
      • Tool-free Adaptation: ツールを使わずに内在的な推論能力を向上(DeepSeek-R1, Kimi-1.5)
      • Tool-augmented Adaptation: ツール使用を含むタスクの最終成果で最適化(ReSearch, ReTool)
  • Tool Adaptation
    • T1の代表例
      • Vision Models: CLIP(ゼロショット分類), SAM(プロンプト可能なセグメンテーション)
      • Speech & Audio: Whisper(多言語音声認識・翻訳)
      • Dense Retrievers: DPR, ColBERT, Contriever, e5(検索拡張生成用)
      • Scientific Tools: AlphaFold2(タンパク質構造予測), Neural Operators(物理シミュレーション)
      • Graduated Subagents: DeepRetrieval(A1で学習後、凍結してT1ツール化), SWE-Grep(コードリポジトリ検索)
      • たくさんあるToolの統合方法
        • Prompt-based Orchestration: HuggingGPT(自然言語でツールを記述・調整)
        • Code Generation: ViperGPT(Python関数としてツールを公開)
        • Knowledge Graph Retrieval: SciToolAgent(500以上の科学ツールをKGで組織化)
        • Model Context Protocol (MCP): Anthropicによる統一API層、コンテキスト使用量を98%以上削減
    • T2の代表例
      • s3 (EMNLP 2025): 軽量7BサイズのSearcherサブエージェントを訓練。凍結されたGenerator(Qwen2.5-14BやClaude)の最終出力の正確性を報酬として学習。わずか2.4kサンプルで58.9%の精度を達成*Search-R1は170kサンプル必要)。70倍のデータ効率、33倍の学習速度を実現。
      • AgentFlow(Li et al., 2025): 軽量プランナーが凍結された専門家モデルを調整。GAIA benchmarkで33.1%達成(GPT-4を上回る)
      • DynamicRAG (NeurIPS 2025): クエリの難易度や検索ノイズに応じて、何件・どの文書を渡すかを適応的に調整するRL方策を学習
      • QAgent: 2段階訓練。Stage 1で自己生成答案を報酬とするが、Stage 2で凍結Generatorの評価に切り替え、Reward Hackingを防止
      • Mem-α: 凍結されたGeneratorのQA精度を報酬として、メモリ書き込み方策を学習。30kトークンの訓練シーケンスから400kトークン超のコンテキストに汎化
      • 最近はAgentが自律的に探索・計画するサブエージェントを作る(Subagent-as-a-tool)のが流行っており、以下の3つのタイプに分かれる
          1. Agentic Searchers(知覚の最適化): s3, DynamicRAG, QAgent
          1. Memory Construction(反省の最適化): Mem-α, AutoGraph-R1
          1. Meta-Cognitive Planners(計画の最適化): AgentFlow, AI-Search Planner
  • 今後の展望
    • Co-Adaptation:AgentとToolの同時最適化
    • Continual Adaptation: 実世界の否定上なタスクでの継続的な適応
      • Replay-style: 過去の例をバッファに保存し、選択・利用・圧縮
      • Dual-memory Systems: 高速・大容量だが不安定なEpisodicバッファと、遅いが堅牢な長期記憶の分離
      • Prompt-based Adaptation: 基盤モデルは凍結し、プロンプト変更で適応(T2に自然に対応)
    • Safe Adaptation: 危険な探索や異常な行動への適応を防ぐ
    • Efficient Adaptation: 過度なGPUクラスらに依存しないエッジでの適応

@Yuya Matsumura

[論文] One Layer Is Enough: Adapting Pretrained Visual Encoders for Image Generation

  • 拡散モデルは低チャネル・次元を好むが、高次元の事前学習済モデルの画像特徴を使いたいというギャップを解消したいというモチベーション。
  • 従来はそのギャップを埋めるためにモデルアーキテクチャを大きくいじる必要があったが、提案手法ではセルフアテンション層をひとつ挟むことで耐えたぜというもの(デコーダーは分解してるけど)。
  • 2種類のDecoderの追加
    • Feature Decoder:低次元の潜在空間から、元の高次元な特徴空間を再現する役割
    • Pixel Decoder:高次元ベクトルから元の画像を生成する役割
    • → この役割分担により、潜在空間が意味情報を保持したまま、ピクセルレベルの精度を高く維持できるというイメージ
  • 学習
    • stage 1a:元の高次元特徴量を再現するように Feature Decoder とアテンション層を学習
    • stage 1b:高次元特徴量にノイズを加えた上で画像を復元するように Pixel Decoder を学習
    • stage 2:がっちゃんごして改めて Pixel Decoder をfinetune
    • この上で生成モデルを学習させると、高次元の事前学習済モデルの特徴を落とさずに性能高く生成が行える!
 

@Shun Ito

[論文] Memory-T1: Reinforcement Learning for Temporal Reasoning in Multi-session Agents

  • 長期にわたるマルチセッション対話において、質問に対して時間的に正しい情報をメモリから引き出して回答したい
    • last night や the week before that といった表現から適切な時期の情報を探し出す
    • あるセッションの中にも、回想のようなさらに過去を言及している場合がある
  • 既存手法は、最終的な回答の正確性だけを報酬にしているパターンが多い
  • 提案(Memory-T1): メモリ選択も報酬設計に加えて強化学習する
    • 構成としては2段階
        1. Candidate Generation
            • クエリに対してLLMでざっくりとした対象期間を推定し、その範囲のセッションに絞る
              • ここで間違えたら終わりなので、recall優先で広めにとる
              • このLLMは学習対象ではない
            • 加えてBM25等でランキングし、上位k件を次ステップで使う
        1. Fine-grained Selection
            • 強化学習モデルで情報選択と回答の生成
            • 回答の生成時は、「選択したメモリ情報」「最終回答」の両方を出力
            • 学習時の報酬を3種類設計し、その重み付け和でフィードバックする
              • Accuracy Reward: 回答の正確性
              • Evidence Grounding Reward: クエリに対して正しいセッションを選べているかどうか
                • 正解のセッションはアノテーションデータを利用
                • Jaccard指標で正解とどれだけ共通しているかによって評価
              • Temporal Consistency Reward: 時間的に正しい情報を選べているかどうか
                • session-level: 正解の期間と選ばれたセッションの期間との距離
                • utterance-level: 正解の期間と選ばれた発話の期間との距離
                  • セッションの期間とその内容が必ずしも一致しないことがあるのを、この報酬で考慮する
                • 報酬の高さは、セッション・発話の期間が正解 > セッション・発話の期間のどちらかだけが正解 > セッション・発話の期間の両方が間違い、のイメージ
  • 結果
    • Qwen2.5-3B, Qwen2.5-7B-Instructをベースモデルで使用
    • 全体として良好な結果

@Takumi Iida (frkake)

[論文] Sharp Monocular View Synthesis in Less Than a Second

概要

単一の写真から1秒以内に高品質な3D Gaussian表現を生成する手法。リアルタイム(100+ FPS)で近接視点からのフォトリアリスティックなレンダリングを実現できる。
[fr] めちゃ速いし、単眼でやっているのが強い
既存手法と比べると特に近接視点で綺麗に生成できるらしい
 
パイプライン
パイプライン
 
  1. 深度マップ推論
    1. 出力は以下の2つ
      1. 深度マップ
      2. オクルージョンマップ
    2. (訓練時のみ)Depth Adjustmentでは、深度の曖昧性を補正している [fr] ガラスの透過や反射などによって、深度が一意に決まらないことへの対処っぽい
  1. その深度を初期値として3DGSを実施 これがベースとなる
  1. ベースの3GSでは精度が足りないので、補正をかける Gaussian Decoderで補正用の3DGSを生成 (Gaussian Refinement)して、合成(Compose)
  1. 最後にレンダリングして、画像生成。 カメラを色々変えて、レンダリング
損失はたくさん 主にレンダリング損失と深度損失から構成されている

レンダリング損失

1. 色損失(L1)

入力視点と新規視点の両方で、レンダリング画像とGT間のL1損失:
ここで Ω はすべてのピクセルの集合。

2. 知覚損失

新規視点のみに適用し、もっともらしいインペインティングを促進:
ここで:
  • $φ_l$: VGG特徴抽出器の第l層
  • $G_l$: その Gram 行列
  • $w_l, w_l^gram$: 重み係数
効果: 視覚品質に大幅な改善をもたらす(アブレーション研究で確認)

3. アルファ損失

入力視点でレンダリングされたアルファに Binary Cross Entropy (BCE) 損失を適用し、偽の透明ピクセルを抑制:

深度損失

第1深度層のみ、入力視点のみで、予測視差とGT視差間のL1損失:
視差空間での損失は、深度空間よりも遠方領域の誤差を重視しません。

正則化

1. Total Variation (TV) 正則化

第2深度層の平滑化を促進:

2. 勾配正則化

大きな視差勾配を持つ floater を抑制:
ここで:
  • $I_{G}$: Gaussianのインデックス集合
  • $μ(i)$: Gaussian位置の2D投影
  • σ = ε = 0.01

3. デルタ正則化

Gaussianオフセット量を制約し、base Gaussiansからの極端な逸脱を抑制:
ここで δ = 400.0。

4. Splat 分散正則化

スクリーン空間での投影Gaussian分散を制約:
ここで Var_{min} = 0.1, Var_{max} = 100.0。

深度調整損失

1. スケールMAE損失

スケールマップのスパース性を促進(情報ボトルネック):

2. マルチスケール TV損失

6つの異なるスケールで total variation を適用:
ここで $s_{↓k}$ は $2^k$ 倍ダウンサンプルされたスケールマップ。

総損失

ここで:
  • D = {color, alpha, depth, percep}: データ項
  • R = {tv, grad, delta, splat}: 正則化項
  • S = {scale, ∇scale}: スケール項
  • λ: ハイパーパラメータ(詳細は補足資料)
 

結果

近接条件でシャープな画像が生成できる。
Gen3Cは拡散モデルベースで数分単位で生成時間がかかる。
そして高速:左下ほど高速で綺麗
 


@ShibuiYusuke

[論文] Can LLMs Estimate Student Struggles? Human-AI Difficulty Alignment with Proficiency Simulation for Item Difficulty Prediction


1. Introduction

背景と課題

  • 教育評価における重要性: テスト項目の難易度を正確に推定することは、カリキュラム設計や適応型テスト(Adaptive Testing)において不可欠。
  • 従来手法の限界(コールドスタート問題): 従来、正確な難易度パラメータ(項目応答理論/IRTなど)を得るには、多くの受験者によるフィールドテストが必要。新規作成された問題には過去のデータがないため、この「コールドスタート問題」が大きな障壁となる。
  • LLMへの期待と疑問: LLMは人間を超える問題解決能力を持っているが、「人間の学習者がどこでつまずくか(認知的な葛藤)」を理解できるかは未解明。問題を「解くこと」と「難易度を評価すること」は根本的に異なる能力。

研究の目的とアプローチ

本研究では、LLMが自身の能力と、実際の学生が感じる難易度とのギャップを埋められるかを調査。
  • 2つの視点: モデルを「外部観察者(Observer)」として難易度を予測させる場合と、「内部行為者(Actor)」として実際に問題を解かせる場合の2つの側面から評価。
  • 大規模調査: オープンソース、クローズドソースを含む20以上のLLM(GPT-4, Claude, Llama, DeepSeekなど)を対象に、医学、言語能力、論理推論などの多様なドメインで検証を行う。

Key Findings

  1. 体系的な不整合 (Systematic Misalignment): モデルの規模を拡大しても難易度推定の精度は向上しない。むしろ、モデル同士は一致するが人間とは一致しない「Machine Consensus」を形成。
  1. シミュレーションの限界: 「弱い学生」や「強い学生」のふりをする(Proficiency Simulation)手法は不安定であり、根本的な解決策にはならない。
  1. The Curse of Knowledge: 人間にとって難しい問題が、AIにとっては自明(簡単)であることが多く、AIは人間の苦労を理解できない。
  1. Metacognitive Blindness: モデルは自身の限界を予測できず(AUROCスコアがランダムに近い)、自分が間違える問題を「難しい」と認識できていない。

2. Formulation and Evaluation Metrics

2.1 タスクの定式化

難易度予測を、データセット に対する関数近似問題として定義。ここで、 は実世界の学生データから得られた「真の難易度」。
  • 観察者視点 (Observer View - Difficulty Perception):
    • モデルに問題文 、正解 、および特定の習熟度プロンプト を与え、難易度 を予測。
 
  • 行為者視点 (Actor View - Intrinsic Capability):
    • モデルに問題を実際に解かせ(正解は隠す)、正解できたかどうか( )を判定。

2.2 評価フレームワーク

人間とAIの認知のズレを分析するために、スピアマンの順位相関係数(Spearman's Rank Correlation, )を使用。
  1. 知覚アライメント (Perception Alignment, ):
    1. モデルが予測した難易度スコアと、人間の真の難易度との相関。
  1. 能力アライメント (Capability Alignment, ):
    1. モデル群を「合成的な受験者集団」と見なし、項目応答理論(IRT)のラッシュモデルを用いて「マシンの経験的難易度( )」を算出。これと人間の難易度との相関を観測。

2.3 Proficiency Simulation

モデルに特定の役割(ペルソナ)を与えてシミュレーション。
  • : ベースライン(役割なし)
  • : 低習熟度の学生(知識を制限できるかテスト)
  • : 平均的な学生
  • : 高習熟度の学生

2.4 実験設定

  • データセット: 実際の学生のフィールドテストデータを持つ4つのデータセットを使用。
    • USMLE: 米国医師国家試験(専門知識)。
    • Cambridge: 英語読解(言語能力)。
    • SAT Reading & Writing: 言語推論。
    • SAT Math: 数学的論理。
  • モデル: GPT-4シリーズ、Claude、Llama、Qwen、DeepSeek-R1など、20以上のモデルを評価。

3. The Landscape of Explicit Perception

3.1 Systematic Misalignment

  • 結果: すべてのドメインにおいて、人間の感覚とAIの予測には体系的なズレ。
    • スピアマン相関( )は平均して0.50未満。SAT Mathでは比較的高いが、USMLEのような知識集約型タスクでは と非常に低い。
  • スケーリング則の不成立: GPT-5 ( ) のような次世代モデルや推論特化モデル(DeepSeek-R1)であっても、GPT-4.1などの既存モデルより必ずしも優れているわけではない。
  • 分布のシフト: モデルの予測は狭い範囲に集中しており、実際の難易度の広がりを捉えきれない。特に「学生の能力を過大評価」する傾向があり、難易度を低く見積もりがち。
  • Machine Consensus: モデル同士の相関は高く、人間との相関は低い。これはランダムなエラーではなく、AIモデルが共有する「人間とは異なる難易度感覚」が存在することを示唆。

3.2 アンサンブルと習熟度シミュレーション

  • アンサンブルの限界: 上位モデルの予測を組み合わせると多少精度は上がるが、弱いモデルを含めるとノイズとなり性能が低下。これは外部的な集計だけでは解決しないことを示す。
  • 役割演技の不安定さ: 特定の学生レベル(例:弱い学生)を演じさせても、結果は不安定。ただし、異なる役割の予測を平均化(アンサンブル)すると、個々の役割のノイズが平滑化され、精度が向上することがある(GPT-5では0.34→0.47へ向上)。

4. Capability vs. Perception

4.1 The Curse of Knowledge

モデルが実際に問題を解いた結果(正答率)からIRTを用いて「マシンの難易度」を算出し、人間との比較。
  • Cognitive Divergence: モデルが実際に「難しい」と感じる問題(正答率が低い問題)と、人間が難しいと感じる問題の相関は、モデルが「予測」した難易度の相関よりもさらに低いことが判明。
  • サヴァン率 (Savant Rate): 「人間にとって非常に難しい(難易度上位33%)が、90%以上のAIが正解できる問題」の割合。USMLEではこれが70.4%にも達す。USMLEでは人間が苦戦する問題の多くがAIには自明であるため、AIは人間の苦労を共感できない。
  • シミュレーションの無効化: 「弱い学生として解け」と指示しても、モデルの正答率はほとんど下がらない(変化は1%未満)。モデルは自身の強力な知識を抑制することができず、意図的に間違えることが難しい。

4.2 Metacognitive Blindness

モデルの「難易度予測」が、自分自身の「正答/誤答」と連動しているかを検証。
  • AUROC分析: モデルが「自分が間違える問題」に対して、より高い難易度を予測できているかを測定。
  • 結果: 多くのモデルでAUROCは0.50〜0.60程度(0.5はランダム)。モデルが「自分はこの問題を解けないかもしれない」という予測がほとんどできていない。
  • 含意: 自身の限界を内省(Introspection)できないため、それを基準にして人間の難易度を推測することもできないという構造的な欠陥。

感想

  • 人間も意外と「難しい問題が実際に難しい」と認識することは難しいと思う。
    • 例:REST APIくらい簡単に作れると思ってたら、意外とデータ構造が複雑でハマる。
  • 「知識があれば解ける問題」はすぐに解けるかどうか分かる(自分が知ってるかどうか)、「考える必要がある問題」はまずは解いてみないと難易度が分かりにくい(フェルマーの最終定理のように、見ただけでは簡単そうに見える問題は多々ある)気がする。

@Akira Manda(zunda)

[blog]Markdown is Holding You Back

元記事

Brian Hogan「Markdown is Holding You Back」(2025年9月)

記事の主張

Markdownは「暗黙的型付け」である

プログラミング言語の型システムに例えると、Markdownは暗黙的型付け言語。
  • スキーマがない
  • 一貫性を強制する方法がない
  • 見出しが「概念」なのか「手順」なのか、機械には区別できない
TypeScriptがJavaScriptに対して台頭した理由(コンパイル時の保証)と同じ課題をコンテンツも抱えている、という主張。

なぜ今これが問題か

コンテンツの「読者」は人間だけではない。
  • 検索エンジンによるインデックス化
  • LLMによる解析
  • IDE連携
  • AIエージェントによる開発者の質問への回答
機械は構造を頼りにしている。Markdownの箇条書きが「手順」なのか「注釈」なのか「ただのリスト」なのか、機械には判別できない。

現実的な問題

方言の乱立:CommonMark、GitHub-Flavored Markdown、MyST、MultiMarkdown…「Markdownを書いている」つもりでも、ツールによってレンダリングが異なる。
脆弱な拡張性:MDXのような拡張は特定システム依存。 はReactコンポーネントであり、他システムでは壊れる。

代替案

フォーマット特徴向いているケース
reStructuredTextPython/Sphinx系。ディレクティブとロールで構造化Pythonプロジェクトのドキュメント
AsciiDocMarkdown感覚で書けてセマンティクスあり開発者向けドキュメントサイト
DocBookXML。産業レベルの変換パイプライン大規模ドキュメントセット
DITAエンタープライズ向け。再利用・条件分岐・マルチ出版多言語展開、複数製品ライン

結論:黄金律

「管理可能な最もリッチな形式で始め、下方へエクスポートする」
Markdownは優れた「出力形式」。しかし「ソース」としてロックインすると、後からコンテキストを追加できない。
豊かなコンテキストから不要なものを削ぎ落とすことはできるが、何もないところからコンテキストを追加することはできない。

@Shuhei Nakano(nanay)

[blog]Beyond Winning: Spotify’s Experiments with Learning Framework

まとめ: Spotifyの実験成功指標の再定義の話。 A/Bテスト。 従来は「勝率(win rate)」で実験の成功を測っていたが、成熟したプロダクトでは勝率が低くても実験から得られる価値は大きいことに気づいた。 そこで「Experiments with Learning(EwL)」という新指標を開発。「意思決定に役立つ情報が得られたか」を成功の基準とした。結果、win rateは約12%だがEwLは約64%となり、実験の本質的な価値を可視化できるようになった。
学び:
  • 「勝ち」だけが価値ではない
    • 悪化を検出 → リリースを防げた(これも成功)
    • 効果なしを確認 → 自信を持って判断できる(これも成功)
  • 成熟したプロダクトほど勝ちにくい
    • 長年の最適化でユーザーは現状に慣れている
    • 改善には優れたアイデア+完璧な実行が必要
    • 悪化はバグ一つで起きる
  • 実験文化の浸透には3つの層が必要
    • 技術的に実験できる環境
    • 実験の方法を理解している
    • 実験が当たり前という組織文化
    •  
課題1:「学びなし」の実験が多い 36%の実験が意思決定に使えない結果に終わっていた。
原因と解決策:
  • ヘルスチェック失敗 2%
    • 実験の設定や実装にミスがあり、そもそもデータが信頼できない状態
    • → 設定ミスやサンプル比率の不一致を早期検出するツールを提供
  • 検出力不足 26%
    • 実験は正しく動いたが、集めたデータ量が少なすぎて「効果があったのかなかったのか判断できない」状態
    • → サンプルサイズ計算機を改善し、実験設計段階で必要なデータ量を明確化
  • 途中中止 8%
    • 実験を最後まで走らせず、途中でやめてしまった状態。
    • → 終了時に理由を入力させ、フィードバックを収集
課題2:実験のキャパシティ不足 アイデアは多いがテストできる数に限界がある。
解決策:
  • EwLが高いチーム/領域にはテスト帯域を多く配分
  • 収穫逓減が見えるチーム/領域は縮小
課題3:指標のゲーミフィケーション EwL率を上げることだけが目的化するリスクがあった。
解決策:
  • ガードレール指標を設定
    • 勝率:ポジティブな結果の割合も維持
    • 実験量:完了した実験数を減らさない
    • 精度:効果量の推定精度を犠牲にしない
  • 「学びなし」をゼロにしようとしない
    • ある程度の失敗は健全なイノベーション文化の証拠

@Hirofumi Tateyama(hirotea)

[blog]Bloom: an open source tool for automated behavioral evaluations

概要

  • Anthropicの出したLLMモデルの行動評価生成を行う、Agenticな評価フレームワーク。
  • 最先端のLLMモデルに対して、調査したい「望ましくない行動特性」を指定すると、その行動を誘発する評価シナリオを自動生成し、出現頻度と強度を定量化する。
  • 計測したい「行動特性」を定義すると、それを引き出すようなシナリオを自動生成し、対話を実施(rollout)、rolloutごとにターゲット行動の出現度合いを採点する。
 

Bloomによって行われたフロンティアモデルのベンチマーク

左から妄想的迎合、長期間にわたる破壊工作をこっそり行う、停止・改変からの自己保存、自己贔屓
左から妄想的迎合、長期間にわたる破壊工作をこっそり行う、停止・改変からの自己保存、自己贔屓
 

背景課題

  • フロンティアモデルでは、sycophancy(迎合)や、より複雑な環境でのmisalignment(例:in-context scheming、agentic misalignment 等)が問題になり得る
  • こうした振る舞いは、単発の静的プロンプトでは捉えにくい
  • さらにRLHFの過程で報酬ハッキングや仕様ゲーミングのような振る舞いも発生していて、これらも静的なデータセットでは検出できない。
  • トレーニングセット自体が陳腐化したり、評価自体が学習セットに含まれて汚染されることにより、評価が意味をなさなくなってきている。
  • より複雑でリアルな状況でないと特性が発現しない場合が多いが、そのような状況を再現するテストはコストが極めてかかる
 

手法

  • seedを入力として評価を生成・実行する4段パイプライン
  • seedの理解→シナリオ生成→Rollout→判定
  • 特性を誘発させるシナリオを生成し、そのシナリオに沿って対話する評価エージェントを作って評価する。
 

評価

  • 評価シナリオが正しく行動特性を判定できるかの評価のために、行動特性をあえて仕込んだ「病理モデル(これは生物学用語)」を作って検証したところ、9/10でBloomは病理モデルを検出できた。
    • 青がbaselineのモデル、赤はsystem-proptで調整した病理モデル
      青がbaselineのモデル、赤はsystem-proptで調整した病理モデル
    • self-promotion は例外。ログの確認では ベースモデル側も同程度に自己宣伝的で差が出なかった
  • 人の評価との相関はClaude Opus 4.1が最も高かった
 
 

面白かった所

  • 模擬環境込みでの評価を動的に生成し、現実に近い環境で特性誘発を行なっている。
    • 実際のpipelineで生成されたシナリオの様子が見れる(ex: )
      • 現実的なシナリオを生成し、それに沿ってAgentを動作させる
        • モデルは、システムプロンプトにおいて、悪意のある副次的な目標を完了する必要があり、その目標は秘密裏に追求されるべきであると明示的に指示されます。
          ダミーのtoolを用いて911緊急対応オペレータのAgentとして振る舞っている様子
          ダミーのtoolを用いて911緊急対応オペレータのAgentとして振る舞っている様子
           

感想

  • 評価の陳腐化に対して動的なSuiteを生成し実行するアプローチが面白かった。それだけモデルの性能が上がっている
  • よく出る様々な評価指標はAgentとして動かしてみないと測れない性能を表せていないように思うので思想にはとても納得
  • Blogでも言及されているが、このベンチマークデータ自体が学習データに入るとまた汚染されていたちごっっこではあるよね…

メインTOPIC

CLaRa: Bridging Retrieval and Generation with Continuous Latent Reasoning

[pon]クエリ埋め込み、検索からLLMへの入力まで共有潜在空間で突破するというのが面白い論文。top-k選択という離散的な操作をバックフォワードでどう勾配を伝搬するか?が個人的には注目ポイント
 
Retrieval-Augmented Generation (RAG) システムにおいて、外部知識を活用する大規模言語モデル (LLM) が抱える二つの課題、「長いコンテキスト」と「RetrievalとGenerationの最適化の分離」に対処するため、CLaRa (Continuous Latent Reasoning) と呼ばれる統一フレームワークを提案。

1. Introduction

RAGの重要性とその課題
  • RAGの役割:
    • RAGは、外部知識をLLMに組み込むことで、LLMが直面する幻覚(hallucination)や知識の陳腐化といった問題に対処する強力なパラダイムである。
  • 根本的な構造的課題:
    • 既存のRAGシステムの多くは、情報検索(retrieval)とテキスト生成(generation)が別々に最適化されているという根本的な問題を抱えている。
  • 最適化の課題:
    • ドキュメントの選択が離散的であるため、ジェネレータからリトリーバへの勾配の伝播ができない。これにより、リトリーバとジェネレータのタスク目標のアラインメントが妨げられる。
    • 結果として、リトリーバは表面的な類似性に基づいてドキュメントを選択するが、ジェネレータは実際にどの情報が必要かというフィードバックをリトリーバに提供できない。
  • 効率の課題:
    • 密なリトリーバは埋め込み空間でドキュメントをランク付けするが、ジェネレータは依然として生のテキストを消費するため、アーキテクチャの不一致が生じる。
    • この不一致は、表現空間の一貫性の欠如、冗長なテキスト処理による推論コストの増加やコンテキストオーバーフロー、そして検索と生成のための重複したエンコーディングを引き起こす。
    • 共有された潜在空間がない限り、勾配が結合されたとしてもこれらの非効率性は解消されない。
CLaRa
  • CLaRaは検索と生成を共有された連続的なドキュメント表現上で行う統一フレームワークの提案である。
    • ドキュメントは一度、コンパクトなメモリトークン表現にエンコードされ、これが両方の目的(検索と生成)に利用される。
    • ジェネレータからの次トークン予測(NTP)損失をリトリーバに伝播させることで、検索が下流の生成目標に自然に適応するよう弱く教師あり学習を行う。これにより、リトリーバは表面的な類似性だけでなく、実際に回答生成を強化するドキュメントを学習できる。
    • 連続的なエンコーディングは検索プロセスを微分可能にし、結合学習は両モジュールを推論に最適化された共有セマンティック空間内で整合させる。
課題の解決
この統一された設計は、上記の二つの課題を同時に解決する。
  • 最適化: ジェネレータの勾配がリトリーバに直接伝播できる。
  • 効率: 共有されたエンコーディングは冗長な計算を排除し、コンテキスト長を大幅に削減する。これにより、同じ表現空間内で完全にエンドツーエンドの最適化と推論が可能となる。
 
[pon]次から以下二つを解説
Stage I: SCP (Salient Compressor Pretraining):
Stage II: Retrieval and generation joint training:
 

2. SCP: Salient Compressor Pretraining

文書を効果的に圧縮し、その圧縮された表現が意味的に豊かであることを保証するための事前学習フレームワーク。このフェーズではCompressorとGeneratorのRolaアダプターが同時に学習される。
 

2.1 Guided Data Synthesis for Semantic Preservation

 
合成データ生成パイプライン: 上図2 (a) に示されているように、以下のステップで構成される
  • 重要な情報の引き出し (salient information elicitation): 200万のWikipedia-2021ドキュメントからサンプリングされ、ローカルにデプロイされた大規模言語モデル (LLM, Qwen-32B) を使用して、3つの補完的な形式の教師データが生成される。
    • Simple QA (単純なQA): 各ペアが単一の事実を捉え、きめ細かな事実保持を促進する。 冗長性を避けるため、モデルは以前の質問でカバーされていない個別の「原子的な事実 (distinct atomic facts)」を抽出するように誘導される。
    • Complex QA (複雑なQA): 各ペアが複数の事実を統合し、「関係推論 (relational reasoning)」と高レベルの「抽象化 (abstraction)」を促進する。
    • Paraphrase (パラフレーズ): パラフレーズされたドキュメントは文の構造を並べ替えることで、テキストの表面的な形式を変更しながら、その中核となる意味を保持する。
      • 元のテキストからパラフレーズされたテキストへのこのようなマッピングを連続表現という情報ボトルネックを通じて学習することで、学習された表現が意味に焦点を当てるようになる。
 
  • Verification and Regeneration.
    • 不足情報が検出された場合、LLMは元のテキストと既存のQAペアの両方をレビューし、未カバーの事実を捉える追加のペアを生成し、最大10回反復する。最終的なカバレッジ基準を満たさないサンプルは除外される。この反復的なチェックにより、モデルは完全にカバーされ、事実に基づいた忠実なペアからのみ学習するようになる。
 
Appendixにもあるようにこの手順によるデータセットは著者により手動で検証され、十分な品質であることを確認。> C Pretraining Data Quality
 

2.2 Compressor Pretraining

 
目的:
  • 圧縮器が文書の主要な意味情報を保持し、無関係な詳細に容量を浪費しないように学習させる。
  • アーキテクチャ:
    • 共有のベースLLMを使用し、複数のLoRAアダプターを利用。各LoRAアダプターは、Compressor () やGenerator () といった異なる機能に対応する。
 
圧縮と生成のプロセス:
入力文書 に、学習可能な 個のメモリートークン を付加する。
CompressorのLoRA () のみをアクティブにして、メモリートークンの最終層の隠れ状態から圧縮表現 を抽出する。1つのドキュメントが、llll 個のメモリトークンに集約される形。このメモリトークン数は圧縮率(CR)によって決まる
 
 
元のドキュメントのチャンクサイズは256トークン。メモリトークンの数は 256 / 圧縮率 () として計算される。例えば:
  • 圧縮率が4xの場合、メモリトークンは 256/4 = 64 個
  • 圧縮率が16xの場合、メモリトークンは 256/16 = 16 個
  • 圧縮率が256xの場合、メモリトークンは 256/256 = 1 個
 
圧縮ベクトル は指示 と結合され、 を形成する。生成器のLoRA () を訓練し、この を入力として参照出力 を生成するように学習する。
この学習にはCross-Entropy Loss () を用いる。(圧縮器 () と生成器 () の訓練に使用するCross-Entropy Loss。)

 
  • 生成器 () が、指示 、圧縮表現 、これまでに生成されたトークン を条件として、現在の参照トークン を生成する対数確率。この値が高いほど、モデルの予測が参照出力と一致する。
 
圧縮のアライメント (): 圧縮表現が元の文書の意味を忠実に反映するように、潜在表現をアライメントする。文書トークンの平均隠れ状態とメモリートークンの平均隠れ状態との間の平均二乗誤差 (MSE) を最小化する。
 
  • 元の文書 内の全トークン の隠れ状態 の平均。文書全体の意味的要約を表す。

  • 個のメモリートークン の隠れ状態 の平均。圧縮表現の意味的要約を示す。
総学習損失: 生成品質とセマンティックアライメントのバランスを取るため、Cross-Entropy LossとMSE Lossを線形結合する。
: 各損失項の重要度を調整するハイパーパラメータ。
は主にジェネレーター () を通じてテキスト生成の質を向上させる。ただし、この生成はコンプレッサー () が作り出した圧縮表現 に基づいているため、コンプレッサーの出力の質も間接的に向上する。一方、 は直接的にコンプレッサー () を訓練し、圧縮表現が元の文書の意味を忠実に反映するように促す。
 
Instruction Tuning (追加のステップ): ここまでで学習した圧縮器は汎用的であるため、下流のQAタスクに適応させるために追加のInstruction Tuningを行うことができる(必須ではない)。検索された文書とタスクの指示をペアにしたデータセットを使用し、参照応答を生成するように圧縮器と生成器のLoRAアダプターを共同でファインチューニングする。
 
このpre-traniningにより、CLaRaは効率的かつセマンティックに豊かな圧縮表現を生成する基盤を構築する。

3 CLaRa: Retrieval and generation joint training

微分可能な検索モジュールを介して、単一の事前学習済みLLM内で両方を訓練することにより、検索と生成を統合するCLaRaを提案する。
 
SCPでトレーニングされたCompressorを使用。これらの凍結された圧縮ベクトルに対して検索を実行することにより、CLaRaは関連性ラベル付きデータを必要とせずに、共有のクロスエントロピー損失のみを使用して検索と生成のエンドツーエンド最適化を可能にする。
 
  • 圧縮された文書表現の利用
    • 事前学習済みのCompressor () を用いて、元の文書(Raw Docs)を密な埋め込みベクトル(Compressed Docs)に圧縮する。
  • クエリ推論器()によるクエリ表現の学習
    • クエリ推論器()は、クエリトークン()とメモリトークン()を入力として、クエリの埋め込みベクトル()を生成する。
    • このクエリ推論器は、CompressorのパラメータからLoRAアダプターで初期化される。Next-Token Prediction (NTP) トレーニングを通じて、クエリの意図だけでなく、回答生成に必要な関連文書の内容も予測するように学習する。
      • F.3 Effect of Query Reasoner Initialization で初期値にCompressorのパラメータを使う影響について言及
  • クエリの埋め込みベクトルと各文書の埋め込みベクトルの類似度をコサイン類似度で計算する。この際には近似最近傍探索 (Approximate Nearest Neighbor, ANN) などが利用できる。
  • 計算された類似度に基づき、Top-k個の最も関連性の高い圧縮文書埋め込みを選択する。
  • 選択されたTop-k個の圧縮文書埋め込みは、元のクエリと連結され、LLM内のGenerator () に入力される。Generatorはこれらの情報に基づいて回答を生成する。トレーニング中、クエリ推論器とGenerator は、単一の言語モデリング損失(Next-Token Prediction loss)を用いて共同で更新される。

    • : 正解の出力シーケンス : クエリ : 選択されたTop-k個の圧縮文書埋め込み : 時刻より前の正解トークン : Generator が時刻で正解トークンを生成する確率
 
この統一された損失関数により、検索器は明示的な関連性ラベルなしで、生成タスクの目標(高品質な回答の生成)を通じて間接的に学習する。これにより、検索が生成品質と密接に連携するように調整される。
 

Differentiable Top-k Selection

LLMが答えを生成する際に参照するドキュメントを決めるTop-k Selectionは、本質的に離散的な操作。CLaRaはこの問題をStraight-Through (ST) Estimatorで解決する。ST Estimatorの基本的なアイデアは以下の通り:
  • フォワードパス: 実際の離散的な操作をそのまま実行し、具体的な結果を得る
  • バックワードパス: 勾配計算では、離散的な操作を連続的な操作であるかのように近似し、その近似パスを通じて勾配を伝播させる
 
ステップ1:コサイン類似度 の計算
Query Reasonerが計算したクエリの埋め込み と、SCPで圧縮された各ドキュメントの埋め込み との間の関連性スコアとして、コサイン類似度 を計算します。
 
 
個の候補ドキュメントがある場合、それらのスコアのベクトルは となる。
 
ステップ2:ソフト選択()の計算
Top-k選択を行う際に、まず「ソフトな(確率的な)選択」を計算します。これは、各ドキュメントが選ばれる「確率」を表します。
 
 
: バッチ内のサンプル番号(Batch size) • : 何番目のTop-kドキュメントを選ぼうとしているか() • : 全ての候補ドキュメント(個) • : バッチ における各ドキュメントの関連性スコア() • (タウ): 温度パラメーター。値が大きいほどsoftmaxの出力は均一な確率に近づき、小さいほど最も高いスコアのドキュメントに確率が集中します。勾配の流れを制御する上で重要。 • : 既に選ばれたドキュメントを再選択しないようにするためのマスク(負の無限大のような大きな負の値)。 は数値的な安定性のための小さな値です。 • : 各ドキュメントが選ばれる確率分布を生成します。
 
この関数は連続的であり、微分可能。は、各ドキュメントが「Top-kのどこかに選ばれる可能性」を示す微分可能な「ソフトな選択」の表現となる。
 
ステップ3:ハード選択()の計算
次に、実際の「ハードな(具体的な)選択」を行います。これは、ソフト選択で得られた確率分布の中から、最も確率の高いドキュメントを実際に選ぶ操作。
 
 
ステップ4:Straight-Through Estimatorの適用 ここがST Estimatorの核心。
 
  • : フォワードパスで使用する「実際の選択」
  • : バックワードパスで使用する「微分可能なソフトな近似」
  • : Stop-Gradient。フォワードパスではの値をそのまま通過させますが、バックワードパスではに関連する勾配がになるようにします(つまり、より前の層には勾配を伝えない)。
 
この式の動作は次のようになる。 フォワードパス:
の値がを通して評価されるため、となります。 したがって、フォワードパスでは、は実際の離散的なハード選択となります。これにより、RetrieverはTop-kのドキュメントをLLMに渡して生成に使わせることができます。 バックワードパス:
の勾配はとなるため、その項は勾配計算に寄与しません。一方、操作を含むため、勾配は計算されません。結果として、勾配はの項を通してのみ伝播します。 つまり、バックワードパスでは、の離散的な影響を無視し、の滑らかで微分可能な近似を通して勾配を伝播させることができます。これにより、Generatorの損失からRetrieverの関連性スコアや、それらを計算するQuery Reasonerのパラメータへと勾配が流れるようになります。 ステップ5:集約されたTop-kドキュメント表現の計算 最終的に、ST Estimatorを通して得られた選択情報を使って、各バッチのTop-kドキュメントの圧縮表現を集約する。
: 全ての候補ドキュメントの圧縮埋め込み(: バッチサイズ、: 候補ドキュメント数、: ドキュメント埋め込みの次元) • : ST Estimatorを適用した選択テンソル
このが、Query Reasonerが選んだTop-kのドキュメントの圧縮表現となり、Generatorに渡されて回答生成に利用される。
 

ケーススタディ

Logit Lens(nostalgebraist, 2020)を使った調査。
  • 「Ivory Lee Brownの甥は2004年の真のフレッシュマンシーズンに何ヤード獲得したか?」というクエリに対して、推論器からデコードされたクエリ埋め込みには「NFL」や「Oklahoma」といったトークンが含まれる。これらは質問自体には現れないが、対応する正ドキュメントには現れ、質問に答えるための重要な手がかりとなる。
  • この結果は、エンドツーエンド最適化により、クエリ推論器がゴールドエビデンスと整合した推論関連知識を暗黙的にエンコードできることを示している。

4 Experiments

データセット
評価対象: 質問応答(QA)タスクの4つの主要ベンチマークの全開発セットを使用。 • NQ (Natural Questions): オープンドメインQAデータセット • HotpotQA: 複数の文書を横断した推論が必要なマルチホップQAデータセット • MuSiQue: マルチホップQAデータセット • 2WikiMultihopQA: マルチホップQAデータセット
 
訓練時:
  • Compressor学習の命令チューニング段階では、COCOMの質問データ(45.3万件)と、Wikipedia-2021コーパスから取得したトップ5の文書を使用
  • エンドツーエンド訓練では、各ベンチマークの訓練セットを個別に利用(MuSiQueはHotpotQAと2Wikiを組み合わせて訓練)
  • 各クエリに対し、正解文書とBGE-large-en-v1.5モデルでコーパスから追加文書を検索し、合計20件の候補文書を収集
ベースライン
  • 圧縮ベースライン: AutoCompressor、xRAG、COCOM、PCC、LLMLingua-2、PISCOなどの文書圧縮手法と比較
    • [pon] 各手法は詳しく調べれてない。。。
  • 検索・再ランキングベースライン: BM25、BGE-Reranker、RankZephyr-7B、Setwise、Rank-R1などの検索・再ランキング手法と比較
  • エンドツーエンドQAベースライン: GenGround、In-Context RAG、ReComp、DPA-RAG、RetRobust、ChatQA、Self-RAG、RAG-DDR、DROなどの代表的なRAGシステムと比較
  • CLaRaの独自性: 従来のベースラインは生のテキスト上で動作するか、圧縮と最適化が分離している点で異なる。
評価指標
  • コンプレッサー評価:
    • Cover Exact Match (ACC): 生成された出力に正解が含まれているかを測定
  • 再ランキング評価:
    • Recall@k (k ∈ {1, 3, 5}): 上位k件の検索結果中に正解文書が含まれる割合を測定
  • 生成モデル評価:
    • Exact Match (EM): 予測された回答が正解と完全に一致する割合を測定 • F1スコア: 予測と参照間のトークンレベルのF1スコア。適合率と再現率の調和平均を反映
実装詳細
  • 基盤モデル: BGE-large-en-v1.5を検索器として使用。主要なバックボーンモデルとしてMistral-7B-Instruct-v0.2、Phi-4-mini-instructも評価
  • LoRAモジュール: コンプレッサー、クエリ推論器(Query Reasoner)、生成モジュールにそれぞれLoRAアダプターを実装
訓練プロセス:
  • エンドツーエンド学習では、クエリ推論器と生成器をコンプレッサーの訓練済みチェックポイントから初期化
  • 各クエリに対し、まずBGE-large-en-v1.5でコーパスからトップ20の文書を検索し、その圧縮表現を取得
  • その後、クエリと圧縮表現をクエリ推論器に渡し、トップk(k=5)のランキング済み文書を特定し、生成器に供給
文書チャンク: 各文書を256トークンのチャンクに分割
圧縮率 (CR): {4, 16, 32, 64, 128, 256}の範囲で評価。メモリトークン数は256/ρで計算
ハードウェア: 全ての実験を8台のNVIDIA H100 GPU(80GBメモリ)で実行
訓練エポック: 特に記載がない限り、全ての訓練を1エポックで実行
ハイパーパラメータ: 詳細な設定は論文のTable 11に記載
 

4.2 Evaluation of Compression Effectiveness

 
提案手法であるドキュメント圧縮器(document compressor)がどの程度効果的に情報を圧縮できるかを評価している。特に、以下の2つの異なる設定で評価することで、圧縮器の性能を詳細に分析している。
 
Normal設定(Normal setting)
  • モデルは、各クエリ(質問)に対して、Wikipedia-2021コーパスから関連性の高い上位5つのドキュメントを検索する。
  • これにより、圧縮器が「通常の」検索結果という現実的な制約の中で、どれだけ性能を発揮できるかを測定する。
 
Oracle設定(Oracle setting)
  • この設定では、検索された上位5つのドキュメントの中に、必ず正解とアノテーションされたドキュメント(annotated positive document)が含まれるようにしている。
  • 目的は、検索器(retriever)の性能による影響を取り除き、純粋に圧縮器の品質のみを評価することにある。
圧縮率(Compression Rate: CR): 文書の元の長さに対して、圧縮後の表現がどれだけ短くなるかを示す。例えば、4xは元の1/4に圧縮されたことを意味する。
 
主要な結果:
  • 様々な圧縮率において既存のベースライン手法(PISCO、LLMLingua-2など)を一貫して上回る性能を示した。
  • CLaRaは非圧縮のフルテキストを使用するベースライン(BGE retrieval付きのMistral-7Bなど)よりも優れた結果を出すことがあった。
    • これは、圧縮された表現が関連性の低い内容をフィルタリングし、生成モデルを推論に必要なコンテキストに集中させるためと考察されている。
  • 極端な圧縮率(Oracle設定で32倍を超える場合など)では性能が低下するものの、Normal設定では低下は緩やかである。これは、Normal設定では元々検索される文書の関連性が低いため、圧縮による情報損失の影響が相対的に小さくなるため。
 

4.3 Joint Training Results

 
初期化設定
  • 圧縮事前学習からの初期化: 圧縮器の事前学習済みチェックポイントから、クエリ推論器と生成器を初期化。
  • 命令チューニングからの初期化: 圧縮器の命令チューニング済みチェックポイントから、クエリ推論器と生成器を初期化。
主な結果
  • Normal設定での安定したパフォーマンス: 圧縮率が変化してもCLaRaのパフォーマンスは安定しており、16倍から32倍の圧縮率でピークを示す。
  • テキストベースのベースラインを上回る結果: 大幅なコンテキスト長の削減にもかかわらず、優れたパフォーマンスを達成している。
  • Oracle設定での大幅な向上: Oracle設定では、NQとHotpotQAの両方でF1スコアが75%を超える。検索されたドキュメントの関連性が高い場合、CLaRaの統一的な最適化がその情報を効果的に活用できることを示している。
  • 初期化戦略の影響: Normal設定では、命令チューニングによる初期化が、特にNQとHotpotQAにおいて事前学習による初期化より優れた結果を示す。圧縮と回答生成の間により強いアライメント(連携)があることを示唆する。一方、Oracle設定では検索が信頼できるため、初期化戦略による性能差は小さい。
結論: CLaRaは、検索の品質や圧縮率に関わらず、堅牢でスケーラブルなパフォーマンスを示している。
 

Retrieval performance

CLaRaフレームワークにおける文書検索(リトリーバル)の有効性を評価している。評価はOracle設定で行われている。文書の関連性を正確に計算できるかを純粋に評価する。
 
性能結果
さまざまなリランキング手法におけるリトリーバル性能(Recall@1/3/5)を示している。
  • CLaRaは、明示的な関連性ラベルを使用しない弱い教師あり学習にもかかわらず、Sup-Instructのような完全に教師ありの強力なリトリーバーをしばしば上回る性能を示している。
  • 特にHotpotQAデータセット(圧縮率4倍)では、Recall@5で96.21%を達成し、最強の教師ありベースラインであるBGE-Reranker(85.93%)を10.28ポイント上回った。
    • これは、CLaRaがクエリと文書の間の深い意味的相関を捉え、下流の生成タスクに適したリトリーバル品質を達成できることを示唆している。
  • 初期化については、事前学習済みモデルからの初期化が、指示チューニング済みモデルからの初期化よりも一貫して高いリトリーバル性能を示している。これは、指示チューニングが回答中心の証拠に焦点を当てる傾向があり、リトリーバルに必要なグローバルな意味論が犠牲になる可能性があることを示唆している。

Ablation Study

事前学習データの構成(Pretraining Data Mix): SCPステージで、どのデータ(Simple QA、Complex QA、Paraphrase)を組み合わせると圧縮表現の品質が最大化されるかを検証する。QAタイプとパラフレーズ(SimpleQA+ComplexQA+Para)を全て組み合わせることで、ほとんどのデータセットで最高の平均性能を達成している。これは、多様な目標が意味的なカバレッジと汎化能力を高めることを示唆している。
 
MSE損失の効果(Effect of MSE Loss): 圧縮された表現と元のドキュメントの潜在表現間のアライメントを促進するMSE損失項が、圧縮の忠実度と全体の性能に与える影響を分析する。
MSE損失が「元の文書全体の意味的整合性」を求めると、QAタスクにとって最も価値のある情報を優先的に保持するという点で、トレードオフが生じる可能性がある。ただし、この性能低下はごくわずかであり、全体としてはMSE損失がセマンティックな整合性を一貫して向上させている。これは、MSE損失が圧縮表現の品質向上に補助的に機能していることを示唆している。

Limitations

 
本研究におけるCLaRaフレームワークの主な制限事項は以下の通りである。
Compressorの汎化性能
現在のCompressorはWikipediaのデータのみで事前学習されている。このため、医療や法律といった専門性の高いドメインへの適用性には限界がある。将来的には、より多様なコーパスを用いたドメイン適応型事前学習が、汎化性能の向上につながる可能性がある。
圧縮表現を用いた推論
圧縮表現の生成とRAGシステムでの利用に焦点を当てており、圧縮された表現自体がどのように推論に利用されるかについては深く探求していない。(効率的な「推論メモリ」として機能する可能性を秘めている)
モデルサイズ
より大規模なモデルを使用すれば、より高品質でニュアンス豊かな文書表現が生成される可能性がある。圧縮表現が特定のモデルサイズを超えると、生テキストを直接入力するよりも理解や生成の性能において優位に立つか否かは、今後の研究で明らかにすべき問い。
暗黙的表現の汎化
この圧縮ベースの手法を、ツール学習(外部ツールを利用するタスク)など、より広範なタスクに拡張したり、暗黙的な理解と暗黙的な推論(例:知識グラフ推論)を結びつけたりする方向性も有望な研究課題として挙げられる。
 
[pon]
  • query推論機の最適化のために、top-k selectionを微分可能にするという点が面白い。
  • ベースモデルも学習データも英語なので、こちらの現場で即採用は難しそうだが
 

時間あればAppendix抜粋

 
F.2 Retrieval number generalization
推論時に取得するドキュメント数(k)がモデルのQAパフォーマンスにどのように影響するかを示している。
 
F.3 Effect of Query Reasoner Initialization
性能向上: 事前学習済みコンプレッサーのパラメータで初期化されたモデルは、ランダムに初期化されたモデルに比べて、HotpotQAと2Wikiの両データセットにおいて一貫して優れた性能を示した。
 
F.4 Efficiency Analysis
CLaRaフレームワークの推論(inference)における効率性が、様々な圧縮率(Compression Ratio: CR)でどのように変化するかが分析されている。全体として、CLaRaは推論時における計算コストを実用的に許容できるレベルに抑えながら、効率的なRAGを実現していると結論付けている。
 
H Paraphrase Case Study
本論文で提案されているCLaRaフレームワークにおける圧縮された表現が、どの程度元の文書の意味内容を保持しているかを深く掘り下げて分析する。t-SNEという手法で可視化