2026-03-02 機械学習勉強会
今週のTOPICHogeHogeHogeHogeHogeHoge[blog] MediaFM: The Multimodal AI Foundation for Media Understanding at NetflixHogeHogeHogeHogeHogeメインTOPICDoc-to-LoRA: Learning to Instantly Internalize ContextsIntroductionPreliminariesMeta-Learning Context DistillationImplanting Synthetic Needle-in-a-Haystack InformationExperimentsRelates Work
今週のTOPIC
※ [paper] [blog] など何に関するTOPICなのかパッと見で分かるようにしましょう。
技術的に学びのあるトピックを解説する時間にできると🙆(AIツール紹介等はslack channelでの共有など別機会にて推奨)
出典を埋め込みURLにしましょう。
@Naoto Shimakoshi
Hoge
@Yuya Matsumura
Hoge
@Shun Ito
Hoge
@Yosuke Yoshida
Hoge
@Takumi Iida (frkake)
Hoge
@Hiromu Nakamura (pon)
Hoge
@ShibuiYusuke
[blog] MediaFM: The Multimodal AI Foundation for Media Understanding at Netflix
Netflixが独自に開発したマルチモーダルAI基盤モデル「MediaFM」のアーキテクチャ、学習方法、およびその応用成果について解説。
1. 開発の背景と目的(導入)
Netflixが世界中のメンバーに最適なストーリーを届けるために必要なこと。
- コンテンツの深い理解: 大作映画からニッチなドキュメンタリー、ライブイベント、ポッドキャストまで、あらゆる形式のコンテンツニュアンスを機械レベルで深く理解すること。
- 長編動画理解の難しさ: 映画やドラマのエピソード全体にまたがる物語の依存関係や感情の起伏を把握するには、非常に高度な長編動画理解技術。
- マルチモーダルの重要性: コンテンツの本質理解には、視覚(ビデオ)だけでなく、シーンの切り替わりやトーンを把握するための音声(オーディオ)などの非視覚的モダリティ。
- MediaFMの誕生: これらの課題解決のため、Netflixの膨大なカタログ(数千万のショットデータ)を活用し、音声・映像・テキスト(字幕)を統合して文脈を学習する社内基盤モデル「MediaFM」。
MediaFMの概要
定義: Netflixのカタログの一部を使用して事前学習された、初のトライモーダル(音声・映像・テキストの要素)コンテンツ埋め込み(Embedding)モデル。
アーキテクチャ: Transformerベースのエンコーダを中核とし、視覚・音声・テキストの情報を統合して、ショット間の時間的関係を学習。これにより、コンテンツのより深くニュアンスに富んだ「ショットレベルの埋め込み(ベクトル表現)」を生成。
主な用途: 新規タイトルのコールドスタート時のレコメンデーション、プロモーション素材(アートワークや予告編)の最適化、社内のコンテンツ分析ツールのバックボーン。
設計思想: テキスト生成(生成AI)ではなく「埋め込み(ベクトル表現)」を出力に選んだ理由は、モジュール性を重視したため。表現を一度生成すれば社内の全サービスで再利用でき、アーキテクチャの変更にも柔軟に対応可能。

入力データの表現と前処理
最小単位: 動画をアルゴリズムで分割した「ショット(Shot)」。
3つのモダリティ(要素)の埋め込み生成:
- 映像 (Video): という社内モデル(動画検索データセットでファインチューニングされたCLIPスタイルのモデル)を使用し、ショットから均等間隔で抽出したフレームをベクトル化。
- 音声 (Audio): Meta FAIRのを使用して音声サンプルをベクトル化。
- テキスト (Timed Text): OpenAIのを使用して、字幕や音声解説などのタイムドテキストをベクトル化。(テキストがない場合はゼロパディングで補完)
統合(フュージョン):
- これら3つの埋め込みは結合(Concatenate)され、正規化されて2304次元の単一の埋め込みベクトルになる。
- 学習時は、同じ映画やエピソードから抽出された「時系列順に並んだショットのシーケンス(最大512ショット)」としてモデルに入力。
モデルアーキテクチャと学習目的
コアアーキテクチャ:BERTに似たTransformerエンコーダ。
処理のステップ
- 入力の投影:2304次元の統合ベクトルを線形レイヤーでモデルの隠れ次元に圧縮。
- シーケンス構築と特殊トークン:
- 先頭に学習可能なトークンを追加。
- タイトル全体(あらすじやタグなどのメタデータ)をテキストモデルでベクトル化したものをトークンとしての直後に追加。これにより、全ショットに作品全体の文脈(グローバルコンテキスト)を付与。
- 文脈化 (Contextualization):位置情報(Positional Embeddings)を付与し、Transformerスタックに通すことで、「前後のショットの文脈」を踏まえた表現を獲得。
- 出力の投影:Transformerの出力を再び2304次元の空間に戻す処理。
学習手法:Masked Shot Modeling (MSM)
自己教師あり学習の一種である「MSM」を採用。
- 入力シーケンス内のショットの20%をランダムにトークンに置き換え。
- モデルは、前後の文脈から「マスクされたショットの元のベクトル表現」を予測(コサイン距離を最小化するように最適化)。
- オプティマイザにはMuon(隠れ層パラメーター)とAdamWを使用。
5. 応用タスクと評価
MediaFMの埋め込みの評価対象と有効性。
- 評価レベル: クリップ(数秒〜1分程度の短い動画)レベルのタスクで評価。
- 応用範囲: 社内のさまざまなアプリケーションで価値を提供。
- 重要な知見: 単独のクリップではなく、エピソード全体など「より大きな文脈(コンテキスト)の中で埋め込みを抽出する」アプローチが非常に有効。
主なタスクは以下の通り:
- 広告の関連性 (Ad Relevancy): 広告配置に最適なNetflixクリップを分類するタスク。
- クリップの人気度ランキング (Clip Popularity Ranking): 同じ作品内の他のクリップと比較して、クリック率(CTR)がどれくらい高くなるかを予測。
- クリップのトーン分類 (Clip Tone): 内部チームが定義した100種類のトーン(不気味、面白いなど)にクリップをマルチラベル分類。
- クリップのジャンル分類 (Clip Genre): アクション、アニメ、コメディなど11のコアジャンルに分類。
- クリップの抽出・評価 (Clip Retrieval): 作品を宣伝するための「魅力的なクリップ」かどうかを人間による正解データをもとに二値分類。
6. 成果とアブレーション(要素ごとの効果測定)
比較結果と有効性の検証。
ベースラインとの比較。
- MediaFMは、内部モデル(SeqCLIP)や外部の強力なベースライン(Google VertexAIのマルチモーダル埋め込み、TwelveLabsのMarengo)と比較して、すべてのタスクで優れたパフォーマンス(精度)を発揮。
- 特に、広告の関連性など「深い物語の理解」が求められるタスクで大きな改善。

アブレーション(どの要素が効いているか)の分析。
MediaFMの成功の要因は「複数モダリティの統合」と「文脈化(Contextualization)」の2点。これらを切り分けて分析した結果、以下のことが判明。
- 文脈化の絶大な効果。 例えば「人気度ランキング」において、ただのモダリティを単純に結合しただけ(文脈化なし)では精度が落ちるケースがあったが、Transformerによる前後のショットの文脈化(Contextualization)を追加したことで、パフォーマンスが飛躍的に向上。
- 「クリップの抽出」タスクでは、要素を追加するごとに約%ずつ段階的な精度向上。



今後の展望
現在の取り組み:
- カタログデータを用いた自己教師あり学習の知見を活用し、さらなる発展を模索中。
- モダリティの統合を学習済みの事前学習済みマルチモーダルLLM(Qwen-Omniなど)を、次世代モデル開発の「より強力な出発点」として活用するための調査を実施中。
まとめ:
MediaFMの特徴と成果。
- マルチモーダル統合: 動画を構成する「映像・音声・テキスト(字幕)」を融合。
- 時間的文脈の学習: Transformerで「時間的な文脈」を学習。
- 深い理解の実現: Netflixのコンテンツを単なる映像データではなく「物語」としてAIに深く理解させることに成功。
- 位置づけ: 画期的な基盤モデル。
@Akira Manda(zunda)
Hoge
@Shuhei Nakano(nanay)
Hoge
@Hirofumi Tateyama(hirotea)
Hoge
@Kyohei Uto(kuto)
Hoge
@Hiroaki Kudo (hmj)
Hoge
メインTOPIC
Doc-to-LoRA: Learning to Instantly Internalize Contexts
LLM(大規模言語モデル)が長い入力コンテキストからの情報を、極めて効率的かつ即座に「内蔵化 (internalize)」することを可能にする新しい手法である「Doc-to-LoRA (D2L)」を提案する。


Introduction
課題
- LLMは、コンテキストウィンドウに情報を配置する「in-context learning (ICL)」(またはプロンプティング)を通じて、文書理解や多段階推論を行うが、これは効率的ではない。
- ICLは「transient」(一時的)であり、推論時にメモリを大量に消費する。Transformerの二次注意力コストにより、長いプロンプトはレイテンシを増加させ、KV-cacheの肥大化を招く。また、文脈長が長くなると生成品質が低下する傾向がある (Lost in the Middle)。
- 既存の解決策として「supervised finetuning (SFT)」(教師ありファインチューニング)があるが、これにはタスク固有のデータセット収集が必要であり、過学習のリスクや情報変更ごとの再訓練コストが高いという問題がある。
- 「Context Distillation (CD)」は情報をモデルのパラメータに内部化する有望な代替手段であり、一度内部化されれば推論は速くなるが、その訓練プロセスは依然として遅く、メモリ集約的であり、情報が常に変化する場合には実用的ではない。
Doc-to-LoRA (D2L) の提案:
- D2Lは、ICLの利便性とCDの効率的な内部化を組み合わせることを目指している。 これは、ハイパーネットワーク (Hypernetworks) を用いてCDプロセスをメタ学習する手法である。
- 具体的には、ハイパーネットワークが、与えられた文脈から、対象LLMのための軽量なLoRAアダプター (LoRA: Low-rank adaptation of large language models) を生成する。
- 一度アダプターが生成されれば、LLMは元の文脈を再消費することなく後続のクエリに応答でき、推論時のレイテンシとKV-cacheのメモリ消費を削減する。
- 訓練が完了すれば、ハイパーネットワークはどのような新しい文脈に対しても再利用でき、学習されたCDプロセスを単一の安価なフォワードパスで実行できるようになる。
D2Lの主な貢献:
- CDプロセスをハイパーネットワークに蒸留し、単一のフォワードパスで内部化オーバーヘッドを償却するメタ学習目的を導入。
- 入力長の変動に強く、長文脈をチャンク化することで高ランクLoRAを生成できる設計されたアーキテクチャ。これにより、対象LLMのネイティブコンテキストウィンドウの4倍を超える文脈長で、ほぼ完璧なゼロショット精度を達成。
- 限られた計算予算の下で、従来のCDを上回り、内部化の効率を大幅に改善し、更新レイテンシとメモリ使用量を削減することを示した実証的検証。
- 長文QAタスクにおいて、訓練長を超える文書へのゼロショット汎化を実証。
- Visual-Language Model (VLM) からテキストベースのLLMへの視覚情報の効果的なゼロショット転送を実証。
これにより、D2LはLLMの迅速な適応を促進し、頻繁な知識更新やパーソナライズされたチャット行動の可能性を開くとされている。
Preliminaries
- Context Distillation (CD) の定義
- CDは「自己蒸留(self-distillation)」メソッドであり、in-context prompt によって誘導される振る舞いや知識を、大規模言語モデル(LLM)のパラメータ内に「内部化」することを目指す。 従来の知識蒸留 (Distilling the Knowledge in a Neural Network) とは異なり、CDでは同じLLMを教師モデルと生徒モデルの両方に用いる点が特徴である。
- 教師モデル: コンテキスト にアクセスできる。
- 生徒モデル: コンテキスト にアクセスできない。
CDの目的は、教師モデルがコンテキストとクエリに基づいて生成する応答を、生徒モデルがコンテキストなしで模倣するように学習させることである。
- Query-Dependent Distillation
- CDの基本的な目的は、与えられたコンテキストとクエリのペア に対し、教師モデル が生成する応答 を生徒モデル が模倣するように学習することである。これは以下の目的関数によって表される:
- ここで はカルバック・ライブラー情報量(Kullback–Leibler divergence)を示す。 は教師モデル(オリジナルのLLM)のパラメータ、 はコンテキストに特化して内部化された生徒モデルのパラメータである。
- この形式は単一の トリプレットに焦点を当てており、「query-dependent distillation」と呼ばれる。しかし、この方法は過学習のリスクがある。
- Internalization の定義: Query-Independent Distillation
- より堅牢な内部化を実現するため、「query-independent distillation」が提案される。
- これは、コンテキスト に対して複数のクエリ と、教師モデルが生成した対応する応答 を利用して、小さなデータセット を作成する。
- このデータセット を用いて、生徒モデルは以下の目的関数を最適化する:
- この最適化プロセスが、本論文における「内部化(internalization)」の具体的な定義である。内部化が成功すると、モデルは内部化されたパラメータ を通じてコンテキスト の情報にアクセスできるようになり、あたかも がコンテキストとして与えられているかのように振る舞うことができる。
- これにより、安全ガイドラインやユーザーの好みなど、特定の情報をモデルのパラメータに永続的に埋め込むことが可能になり、リアルワールドのアプリケーションに大きな影響を与える。
- D2LとContext Distillation
- D2Lは、このquery-independent CDプロセスをメタ学習するハイパーネットワークとして機能する。
- つまり、ハイパーネットワークは与えられたコンテキストから、そのコンテキストの知識を内部化したLoRAアダプターを生成する方法を学習する。これにより、従来のCDのような高コストな学習プロセスを単一の順方向パスに償却することを目指している。
Meta-Learning Context Distillation
- D2Lは、クエリに依存しないCDをメタ学習することに焦点を当てている。これは、一度モデルのパラメータに内部化された知識が、まだ見たことのない新しいダウンストリームのクエリに対しても汎用的に機能することを意味する。
- ハイパーネットワークの役割
- D2LはハイパーネットワークHϕを利用する。このハイパーネットワークは、与えられたコンテキストを入力として受け取り、フリーズされたベースモデルを変更するためのLoRAアダプターパラメータのセットを生成する。
- 生成されたは、元のモデルパラメータに加算され、コンテキストが内部化されたモデルを形成する。ここで、と表される。
- (実験の設定ではハイパーネットワークのパラメータ数は309M)
- メタトレーニングプロセスと目的関数
- 従来のCDは、各コンテキストに対して個別のパラメータ更新()を最適化する必要があった。これに対し、D2Lは単一のハイパーネットワークをメタトレーニングし、多様なコンテキスト(タスク)にわたって汎化することを目指す。
- その目的は、コンテキスト条件付きの教師モデル()と、ハイパーネットワークによってコンテキストが内部化された生徒モデル()との間のKullback–Leibler divergence (KLダイバージェンス)を最小化することである。
- この目的関数は、以下のように数式で表現される:
- ここで、は多様なコンテキスト、クエリ、応答を含むメタトレーニングデータセットである。
- : ハイパーネットワークのパラメータ。
- : メタトレーニングデータセットからサンプリングされたコンテキストと、それに関連するクエリ・応答ペアのデータセットについての期待値。
- : からサンプリングされたクエリと応答についての期待値。
- : コンテキストにアクセスできる教師LLMが、クエリに対して応答を生成する確率分布。
- : ハイパーネットワークによって生成されたLoRAアダプターが適用されたLLMが、クエリに対して応答を生成する確率分布。このモデルはコンテキストに直接アクセスせず、内部化された知識に依存する。
- 訓練後の利点:
- 訓練されたハイパーネットワークは、任意の新しいコンテキストが与えられた際に、単一の順方向パスで対応する内部化されたパラメータを生成できる。
- これにより、従来のCDが必要とする高コストなクエリ生成プロセスや逆伝播の計算オーバーヘッドを大幅に償却し、低レイテンシーでの知識内部化を実現する。
Implanting Synthetic Needle-in-a-Haystack Information
このセクションの目的は以下の3点である。
- 知識の内在化: D2Lが、元のコンテキストを直接読み込むことなく、LLMが埋め込まれた情報を想起できるように、知識の内在化を成功させること。
- コンテキスト長の克服: LLMが本来持つコンテキスト長の制限を効果的に回避すること。 推論コストの削減: 特に長い入力において、推論に必要な計算リソースを削減すること。
- この目的を達成するために、本論文では「Needle-in-a-Haystack(NIAH)」と呼ばれる合成情報検索タスクを用いてD2Lを評価している。
NIAHタスクの詳細は以下の通りである。
- タスクの定義: NIAHタスクは、長い邪魔な文書(haystack)の中から特定の情報(needle)を見つけ出すことをモデルに要求する。例えば、「魔法の数字は0042です」といった特定の4桁の数字を定義する文が、多くの無関係なテキストの中にランダムに挿入される。モデルの目標は、プロンプトが与えられたときにその数字を正確に取得することである。
- ベースモデル: すべての実験で、コンテキスト長8Kトークンのgemma-2-2b-itがベースLLMとして使用される。
- D2Lのメタトレーニングには、32から256トークン長の入力コンテキストが使用された。 トレーニング入力は、1から8のチャンクにランダムに分割され、最小チャンクサイズは25トークンである。
評価時の設定
- ベースラインモデル: haystackとクエリの両方に直接アクセスする。
- D2L: ベースLLMは元のコンテキストのどの部分にも直接アクセスせず、「魔法の数字は何ですか?数字だけを答えてください。」というクエリプロンプトのみが与えられる。
- D2Lがこのタスクで良いパフォーマンスを出すためには、コンテキスト情報をNeedleの値を格納するLoRAアダプターにマッピングすることを学習する必要がある。これにより、適応されたベースモデルはLoRAアダプターに含まれる知識のみに基づいて正しい応答を返すことができる。
- D2Lは、入力が1024トークンよりも長い場合、1024トークンを最大チャンクサイズとして等しいサイズのチャンクに分割して処理する。これは、トレーニング中に見た最大シーケンス長256トークンの4倍である。
NIAH実験の主な結果は以下の通りである。

- 知識の内在化とコンテキスト長一般化(Figure 2上部):
- D2LはNeedle情報を成功裏に内部化し、8Kトークンまでのhaystackにおいて、インコンテキスト情報を持つベースモデルと同様に完璧に近い精度を達成した。
- haystackが8Kトークンを超えると、ベースモデルのパフォーマンスはコンテキスト長制限により急激に低下するが、D2Lはこれらのより長いシーケンス全体で高い情報検索精度を維持した。
- 特に、モデルがトレーニングフェーズで曝露されたチャンク数の5倍にあたる40チャンク(40Kトークン)まで、パフォーマンスはほぼ完璧なままであった。この結果は、D2Lがチャンクサイズとチャンク総数の両方で強い一般化能力を示すことを実証している。
- 推論コストの削減(Figure 2下部):
- D2Lは高い精度を達成するだけでなく、特に拡張されたコンテキスト長において、ベースモデルよりも少ないメモリを必要とし、顕著な効率改善を示した。
- 128Kトークンのhaystackに対して応答を生成するために、ベースモデルは12GB以上の追加メモリを使用するが、内部化された知識を持つモデルは、haystackの長さに関わらず一貫して大幅に少ないメモリ(50MB未満)を使用する。
- この結果は、ユーザーが長いプライベート文書を最初に内部化することで、推論時のメモリを大量に消費するKVキャッシュを回避できるという、実世界の潜在的な応用を強調している。
Experiments
本セクションでは、D2Lの性能評価を、これまでの人工的なNeedle-in-a-Haystack (NIAH)タスクから、より現実世界に近い質疑応答(QA)タスクへと移行する。D2Lが様々なQAベンチマークにおいて、文脈を内部化する能力を評価することが目的である。
5.1.1. リーディングコンプレヘンションタスクにおける効率的かつ効果的な内部化
3つの標準的なリーディングコンプレヘンションベンチマークでパフォーマンスを評価します:
- SQuAD(スパン抽出、Rajpurkar et al., 2016)
- DROP(パッセージに対する離散推論、Dua et al., 2019)
- ROPES(背景知識を用いた推論、Lin et al., 2019)。

この図は3つのグラフで構成され、それぞれ異なる評価指標と正規化された性能(Normalized Performance)を比較している。
左のグラフ:正規化された性能 vs. 文脈の長さの比率
横軸はContext Length Ratio(文脈の長さの比率)を示す。これはLLMLingua-2などのプロンプト圧縮手法で、元の文脈をどれだけ圧縮したかを表す(比率が低いほど圧縮率が高い)。D2Lなどの内部化手法は推論時に文脈を消費しないため、この比率は0.0となる。
縦軸はNormalized Performance(正規化された性能)で、Base model w/ context(文脈ありのベースモデル)の性能を1.0とした場合の相対的な性能を示す。
主な結果:
- Base model w/ context(オレンジ色の丸):推論時に文脈を直接利用するため、最高の性能(1.0)を示す
- LLMLingua-2(灰色の丸):文脈を圧縮するにつれて性能が低下
- Ours (i)(青い星、D2Lのイテレーションモード):文脈を必要としないにもかかわらず、Base model w/ contextに近い高い性能(約0.82)を達成
- CD (oracle)(緑の菱形):理想的な文脈蒸留の性能(約0.98)で、最も高い内部化性能を示す
- CD (generated queries)(緑の丸):生成されたクエリを用いた文脈蒸留の性能で、Ours (i)よりも低い(約0.7)
- T2L(茶色の丸)とBase model w/o context(黒い丸):性能が低い
中央のグラフ:正規化された性能 vs. 更新レイテンシ(秒)
横軸はUpdate Latency (seconds)(モデル更新にかかる時間)を対数スケールで示す。縦軸は左のグラフと同様にNormalized Performanceである。
垂直の破線はSub-second internalization(1秒未満での内部化)の目安を示し、D2Lの目標達成を示唆している。
主な結果:
- CD (oracle)とCD (generated queries):高い性能(または中程度の性能)を示すが、更新に数十秒から百秒以上かかる。これは従来の文脈蒸留が計算コストの高いプロセスであることを示す
- Ours (i)とOurs (b)(D2Lのバッチモード):性能はCD (oracle)よりやや低いが、更新時間は0.1秒から1秒未満と非常に高速で、「Sub-second internalization」を達成。D2Lがリアルタイムまたはインタラクティブなアプリケーションで大きな利点を持つことを示す
右のグラフ:正規化された性能 vs. モデル更新に必要な追加メモリ(GB)
横軸はAdditional Memory Needed for Model Updates (GB)(モデル更新に必要な追加メモリ量)を示す。縦軸は同様にNormalized Performanceである。
主な結果:
- CD (generated queries):モデル更新に40GB以上の追加メモリが必要
- CD (oracle):約8GBの追加メモリを使用
- Ours (i)とOurs (b):性能を維持しつつ、追加メモリ消費が大幅に少ない。Ours (i)は2GB未満、Ours (b)は約10GBと、CD (generated queries)よりはるかに効率的。D2Lがリソース制約のある環境でも実用的であることを示す
まとめ
この図は、D2Lが従来のContext Distillationと比較して、SQuADタスクにおいて大幅なレイテンシとメモリ消費の削減を実現しつつ、高い性能を維持できることを示している。特にOurs (i)(D2Lのイテレーションモード)は、性能と効率性のバランスに優れ、文脈の「インスタント内部化」という目標を達成している。

上部のテーブルは、各手法の性能、更新時の追加メモリ消費、および更新にかかる平均レイテンシを示している。
主な観察:
D2Lの性能と効率:
D2L (青い星)は、推論時の追加メモリが非常に少ない(100MB未満)にもかかわらず、CD (5 generated queries)やT2Lといった他のパラメータ内知識手法よりも高い性能を示す。
Base model w/ contextが最も高い性能を示すが、推論時のメモリ消費も最も大きい(約1GB)。D2Lは、このメモリ消費を大幅に削減しつつ、比較的近い性能を達成している。
長文コンテキストへのゼロショット汎化:
D2Lは、トレーニングで見たことのない長いコンテキスト(最大32Kトークン)に対しても高い性能を発揮し、ゼロショットでの汎化能力を示している。
Ours + truncated contextの興味深い挙動:
2WikiMultihopQAとMultiFieldQAのデータセットでは、D2Lで内部化されたモデルに切り詰められたコンテキストが与えられた場合(水色の星)、その性能はBase model w/ contextやCD (oracle)と同等か、QASPERにおいてはそれらをわずかに上回ることもある。
これは、LLMが長いコンテキストで直面する「lost-in-the-middle」問題や注意ノイズによって情報が失われる場合に、D2Lによって内部化された知識がLLMの性能を補強し、堅牢性を高める可能性を示唆している。LLMが外部コンテキストから情報を十分に引き出せない際、内部化された知識にフォールバックすることで、より正確な応答を生成できると考えられる。
全体的な結論:
Doc-to-LoRA (D2L)は、コンテキストの内部化において、従来のコンテキスト蒸留(CD)手法と比較して、更新速度とメモリ効率を劇的に向上させる。さらに、トレーニングで遭遇したことのない長文コンテキストに対しても高いゼロショット汎化能力を示し、推論時のメモリ消費を大幅に削減しながらも高いパフォーマンスを維持する。特に、内部化された知識がLLMが長文コンテキストで直面する課題(例: 注意ノイズ)を軽減し、全体的な堅牢性を高める可能性は、この研究の重要な貢献点である。

この表は、SQuADデータセットにおけるクエリの内在化能力を評価した実験結果を示している。ここでは、Doc-to-LoRA(D2L)が通常のコンテキスト(文書)ではなく、クエリ(質問)をモデルのパラメーターに内在化させる「極端な汎化テスト」を行った場合のパフォーマンスを評価している。評価指標はRecallとPrecisionである。各行の詳細は以下の通り。
Base model w/ context:
ベースモデルがコンテキスト(関連文書)とクエリの両方に直接アクセスできる場合の性能を示す。Recall: 0.886、Precision: 0.876と最も高い性能を発揮している。これは、モデルが質問に答えるために必要な情報に全てアクセスできるため、性能の上限に近い値と見なせる。
D2L:
通常のD2Lの設定、つまり文書をモデルのパラメーターに内在化させ、クエリのみを与えられた場合の性能を示す。Recall: 0.740、Precision: 0.720と、コンテキスト付きベースモデルには及ばないものの、文書情報を効率的に内在化できている。
D2L (swapped):
この行が今回の実験の主な焦点である。D2Lが文書ではなくクエリを内在化するように学習された場合の性能を示している。評価時には、モデルは文書に直接アクセスできるが、クエリにはアクセスできない状態である。Recall: 0.587と、コンテキスト付きベースモデルや通常のD2Lに比べて低いものの、何らかの関連情報を引き出せていることが示唆される。一方、Precision: 0.044と極めて低い値を示している。これは、モデルが正しい回答を生成する能力に乏しいことを意味する。論文では、クエリを内在化したモデルは時折正しい答えを生成するものの、その出力が「非常に冗長」であるため、Precisionが急激に低下すると説明されている。この結果は、D2Lが本来の目的(文書知識の内在化)から外れた「極端な汎化テスト」でも一定のRecallを示し、そのポテンシャルを示している。
Base model w/o context:
ベースモデルがコンテキスト(関連文書)もクエリも与えられない場合の性能を示す。Recall: 0.185、Precision: 0.205と性能が非常に低い。これは、モデルが質問に答えるための情報を持たないため、ほとんど推測に頼っている状態を表しており、性能の下限と見なせる。
結論: D2Lは文書知識の内在化において高い性能を発揮するが、クエリの内在化という「極端な汎化テスト」においては、特に精密性において大きな課題を抱えることが明らかになった。しかし、それでもコンテキストなしのベースモデルよりはRecallが高く、D2Lが事実情報以外の様々な種類の情報も内在化できる可能性を示唆している。

この図は、コンテキスト情報を大規模言語モデル(LLM)に内部化する各手法の性能と処理時間を比較したものである。
Method(手法): コンテキスト内部化に使われた方法を示す。
- CD (oracle): Context Distillation(CD)の理想的なケースで、特定のクエリに対して直接最適化を行った場合の理論上の性能上限を示す。実際のシステムでは実現が難しい。
- D2L: 本論文で提案されているDoc-to-LoRA手法。ハイパーネットワークを使ってコンテキストをLoRAアダプターに変換し、LLMに即座に内部化させる。
- CD (X generated queries): 実際のCD手法で、X個の生成クエリを使って内部化を行う。クエリ数が多いほど学習信号が増え、性能が向上する可能性がある。
Normalized Performance(正規化された性能): 内部化された知識を使って質問応答タスクを解くモデルの性能を正規化した値。値が高いほど性能が良い。CD (oracle) の性能が基準(0.988)となっており、他の手法がどれだけそれに近いかを示している。
Update Latency (s)(更新遅延(秒)): コンテキスト情報をLLMに内部化するのにかかる時間(秒)。値が小さいほど内部化が速い。
分析:
性能:
CD (oracle)が最高の性能(0.988)を達成しているが、これは理想的なケースであり、実用的な比較対象とはならない。
D2Lはその次に高い性能(0.866)を達成しており、CD (oracle) にかなり近い値である。
従来のCD手法(生成クエリを使用)は、クエリ数を増やせば性能は向上する(20クエリで0.506、100クエリで0.650)が、D2Lの性能には及ばない。これは、D2Lがハイパーネットワークを介して「多くのクエリにわたる蒸留の効果」を償却しているため、少ないクエリ数で訓練された従来のCDよりも、多様なクエリに対して堅牢な内部化を学習しているからだと考えられる。
更新遅延:
D2Lは極めて低い更新遅延(0.086秒)を達成している。これは、コンテキストを読み込んだ後、ほぼ瞬時にLLMを更新できることを意味する。
CD (oracle) は8.763秒かかる。
従来のCD手法は、クエリ数が増えるほど遅延が大幅に増加し、100クエリでは631.101秒(約10分)もかかる。これはユーザー体験の観点から現実的ではない。
結論:
D2Lは、従来のCD手法(特に実用的なクエリ数に制限された場合)と比較して、はるかに高速なコンテキスト内部化を実現しつつ、高い性能を維持できる。これは、リアルタイムで変化する情報やユーザーの好みに合わせてLLMを迅速に適応させる必要がある場面で、D2Lが非常に実用的であることを示している。
Relates Work
このセクションでは、Doc-to-LoRA (D2L) が既存の関連研究、特にハイパーネットワークやコンテキスト蒸留 (CD) とどのように異なり、それらをどう基盤としているかを説明する。
ハイパーネットワークの活用:
ハイパーネットワークとは、別のネットワークの重みを生成するネットワークである(Hypernetworks)。タスク適応を償却するメタ学習器として長年利用されてきた。
LLMでは、ハイパーネットワークはタスク固有のパラメータを動的に生成し、オンザフライでの適応を可能にする (Ivison & Peters, 2022; Ivison et al., 2023; Phang et al., 2023; Lv et al., 2024)。
D2Lもこの原理を採用している。ハイパーネットワークがコンテキスト情報から直接LoRAパラメータを生成することで、従来のCDに伴うオーバーヘッドを回避する。
コンテキスト蒸留 (CD) との関連:
CDは、インコンテキストプロンプトによって誘発される振る舞いをモデルのパラメータに内部化する自己蒸留手法である。
D2Lは、このCDプロセスをメタ学習によって近似する。高コストなクエリ生成や逆伝播のプロセスをメタトレーニング段階に償却することで、単一の順伝播で即座かつ低コストで知識を内部化できる。
先行研究には、CDを目的としてハイパーネットワークを訓練するMEND (Li et al., 2024)、タスク命令を圧縮するGisting (Mu et al., 2024)、prefix-tuningに基づくCartridges (Eyuboglu et al., 2025) などがある。
D2Lの独自性: D2Lは、これらの先行研究とは異なり、コンテキストとして提示される任意の情報に適用できる汎用的なCDプロセスを捉えることを目指している。時間的・メモリ的に効率的である点も特徴だ。
Generative Adapter (GA) との比較:
GA (Chen et al., 2025) は、教師データトークンに対する次トークン予測損失を用いてハイパーネットワークを最適化する。事前学習コーパスで訓練された後、SFTデータセットでファインチューニングされる。
D2Lの独自性: D2LはCD目的を用いてハイパーネットワークをメタ訓練する。主に生成されたクエリと自己応答を使用し、コンテキスト固有のLoRAアダプタを出力する。
実験結果は、頑健な汎化のためにCD目的を用いることが重要であることを示している。GAはSFT損失による訓練のため高いF1スコアを達成する可能性があるが、D2Lはより高いリコール(事実に即した回答の網羅性)を示す。これは、GAがより短い応答を生成するものの、事実の正確性が低い可能性があることを示唆している。
D2Lが生成クエリと自己応答を使用することで、ファインチューニングデータセットが利用できないドメインへの拡張が可能となる。
プロンプト圧縮との比較:
プロンプト圧縮の先行研究 (Mu et al., 2024; Pan et al., 2024; Chevalier et al., 2023; Zhang et al., 2025a) は、トークン空間で動作し、トークン数を削減する。
D2Lは、重みデルタを予測するハイパーネットワークを介してパラメータ空間で動作する。永続的で再利用可能な適応を可能にする点で異なる。
[pon] 毎回投げる長いコンテキストどうするの問題の一つの解かも。ただメタトレーニングのパワーはいる(gemma-2-2b-itの場合でさえ8基のH200 GPUで約5日間、あとデータセット作成)。我々の実践ではまだここにコストを投下するほどは困ってないが研究として面白い。
