2026-06-23 機械学習勉強会

2026/6/22 9:042026/6/23 14:27

今週のTOPIC [paper] FAPO: Fully Automated Prompt Optimization of Multi-Step LLM Pipelines [paper]General-purpose large language models outperform specialized clinical AI tools on medical benchmarks [paper] L3: Large Lookup Layers メインTOPIC Sakana Fugu Technical Report 概要背景既存手法との違いモデル Fugu (Router)学習 1. シングルターンタスクでの教師あり学習 2. マルチターンタスクでの進化戦略 Fugu-Ultra (multi agent workflow生成)アクセス制御学習評価結果タスク別のモデル利用頻度の分布 AutoResearch性能利用事例

今週のTOPIC

※ [paper] [blog] など何に関するTOPICなのかパッと見で分かるようにしましょう。

技術的に学びのあるトピックを解説する時間にできると🙆（AIツール紹介等はslack channelでの共有など別機会にて推奨）

出典を埋め込みURLにしましょう。

@Naoto Shimakoshi

[paper] FAPO: Fully Automated Prompt Optimization of Multi-Step LLM Pipelines

@Yuya Matsumura

[paper]General-purpose large language models outperform specialized clinical AI tools on medical benchmarks

Nature Medicine誌に掲載された論文。医療領域のタスクについて、汎用モデルが医療特化AIツールを上回る結果を残したというベンチマークについての報告。一方で、比較対象とされたOpenEvidence（医師などの医療専門家向けのAI医療検索・臨床意思決定支援ツール）が論文内容に対して猛烈に批判（詳細はポストスレ参照）。ベンチマーク難しい。。。

評価は３パターン

MedQA (医学知識)

米国医師免許試験（USMLE）形式の500問を用い、基礎的な医学的事実の理解と論理的推論力を定量化

HealthBench (医師との整合性)

500項目のベンチマークにより、自由回答に対する医師の判断基準との一致度を、複数のLLMを評価者とする LLM-as-judge で測定

RCQ (実際の臨床クエリ)

ライブ臨床環境から抽出された100件の非特定化クエリを使用し、12名の米国医師によるランダム化ブラインド・レビュー（計1,800件のアノテーション）を実施

正確性・網羅性・安全性・明確さの４軸で[1-4]のスコアリング

汎用LLMが勝利したよという結果

[yu] 1, 2 は過学習してそうだが（それでも勝てるならいい気も）、3は信憑性ある気もする。が、主観が入る過ぎるという指摘も頷ける。

考察

RAGの副作用とかはありそう。下手なことするよりもLLMに任せてしまう方がいい世界はあると思う。ドメイン特化finetuneも、人間が選択した知識だけで学習する限界はある気もする。

@Shun Ito

[paper] L3: Large Lookup Layers

背景

最近の sparse LLM で主流なのは MoE。各 token を hidden state に基づいて expert に割り当てる。
MoE は total parameters を増やせる一方、router collapse、load balancing loss、router z-loss、expert sharding などのシステム負荷がある。
tokenizer embedding table は token ID で1行だけ lookup するので非常に扱いやすいが、文脈情報を使えない。
L3 の問いは、「embedding table の lookup しやすさ」と「MoE 的な文脈依存の集約」を両立できるか。

提案手法

MoEはMLPをMoEに置き換えるが、L3はdecoder layerの間に差し込む

[Attn → MLP] → L³ → [Attn → MLP] → [Attn → MLP] → L³ → …

L3の処理の流れ

[Is, this, a, pen, ?] → token [t1, t2, t3, t4, t5]

初期hidden state [x1^0, x2^0, x3^0, x4^0, x5^0]

decoder layer (attention + MLP) でhidden stateが更新

L3層

tokenごとにn種類のK, V embeddingが用意されている

K_pen = [k1, k2, ..., k128]

V_pen = [v1, v2, ..., v128]

現在のhidden state x_pen と K_pen から重みを計算

α = Softmax(K_pen x_pen) = [0.01, 0.03, 0.20, ..., 0.00]

重みと V_pen から m_pen embedding

m_pen = V_pen^T α

m_pen → 線型変換 → x_penとconcat → 線型変換 → 次のhidden state

MoEだとhidden stateをrouterに入力し各expertとのscoreを計算してから初めてactiveになる経路が確定する。L3 parameter は token が生成された瞬間に分かるので、CPU offload / prefetch / batch sorting がやりやすい。