2025-03-28 機械学習勉強会

2025/3/24 18:462025/10/31 13:15

今週のTOPIC [blog] GPT-4oとGemini-2.0の画像生成能力はいかにして作られているのか [blog] LLMにJSONやソースコードを出力させるStructured Generationの技術 [blog] RAGの検索性能を90％も低下させるテキストの落とし穴 [blog] Foundation Model for Personalized Recommendation [oss] Memray [blog] FP8 trainingを支える技術 1 メインTOPIC In Prospect and Retrospect: Reflective Memory Management for Long-term Personalized Dialogue Agents サマリー 1. Introduction 2. Related Work 3. Problem Formulation 4. Framework Overview 5. Prospective Reflection: Topic-Based Memory Organization 6. Retrospective Reflection: Retrieval Refinement via LLM Attribution 7. Experimental Setup 8. Experimental Results

今週のTOPIC

※ [論文] [blog] など何に関するTOPICなのかパッと見で分かるようにしましょう。

出典を埋め込みURLにしましょう。

@Naoto Shimakoshi

[blog] GPT-4oとGemini-2.0の画像生成能力はいかにして作られているのか

ChatGPTの画像生成とかを試してみると再帰的に生成されてるように見えたので、最近の画像生成AI界隈が自分の知ってる時代と変わってそうということでPick

これは長崎のyu-ya4, yossy, giwa

異世界転生させたり

自分の理解は拡散モデルで止まっていたけど、その先のAny-to-Anyという分野に世界は進んでいた

2022年にParti というGoogleのモデルで自己回帰型のモデルが出た。

テキスト → 画像を配列から配列(画像トークン)への変換問題として扱う
画像トークンはVQGANで作成
この時点でGoogleの拡散モデルのスコアを超えるレベルになっていたし、スケーリング即を持っていることも確認されていたが、一般に公開されることはなかった

Any-to-Anyの画像生成AI

テキスト、画像、音声など全てを離散トークンとして統一的に入力し、同時に多様なモダリティで出力できるモデルが出てきた (2023年末 ~ 2024年)
AnyGPT

https://arxiv.org/abs/2402.12226

Unified-IO2

https://arxiv.org/abs/2312.17172

さらにこれらもスケーリング則が確認されていた

Gemini-2.0

Geminiは多様なモダリティを受け取って、Text DecoderとImage Decoderで出力するAny-to-Anyモデル
Gemini論文では、Vision EncoderはPartiの研究を元に作られていると書かれてるので、少なくとも画像トークンを出力していると書かれている。

GPT-4o

挙動を観察するとまず低解像度で画像トークンを生成 → 細部を徐々に追加していくというように見える
詳細は謎でみんな様々な予想をしている

[blog] LLMにJSONやソースコードを出力させるStructured Generationの技術

よくJSONモードとか使ってるけど、実際技術的にどうやってやっているのかについての記事

トークンの候補をそもそもコントロールするという手法がよく使われるらしい。

Parserを用いた制約手法

イメージは適宜Parserと連絡を取り合い、Parserが失敗したところでその単語を除外したりする
1単語生成あたりで数万のLLMの語彙を走査する必要があるのでめちゃくちゃ重たいので、効率化する研究がある。

正則言語

正則言語は後方参照を用いない正規表現で表現可能な言語
正則言語のParserは決定性有限オートマトンで表現できる。

ある状態次に行く状態が一つだけに決まっているようなもの。整数とか。

あるノードにいる間は文法的に正しいという状態が有限であることを利用して上手く判定を効率化する。

文脈自由言語

文脈自由言語は正則言語よりも表現力の高い言語

この辺りはややこしいんで、元記事を参照

構文木で表現ですることができる

字句解析

ある程度のまとまった文字列に対して文脈自由言語の終端記号列に変換する
JSONの場合はSTRING, NUMBER, LBRACK( ), RBRACK (), COMMA, LBRACE (), RBRACE (), COLON, TRUE, FALSE, NULLなど。

正則言語+文脈自由言語のStructured Generation

LLMの中間出力を字句解析
確定した終端記号を文法解析
次に続くことができる終端記号を列挙 (DFA)
終端記号を判定するDFAから前計算しておいた語彙マスクを取り出す
語彙マスクの和集合を取り、次に続くことができるLLMの単語を列挙

終端記号の種類数はPythonでも94種らしい

@Shun Ito

[blog] RAGの検索性能を90％も低下させるテキストの落とし穴

元論文: Collapse of Dense Retrievers: Short, Early, and Literal Biases Outranking Factual Evidence

RAGの性能悪化をもたらすバイアスを紹介

位置バイアス

回答となるべき情報が文章の先頭にあるほど類似度が高く出る

単語バイアス

表記揺れ（US ↔ United States）で類似度が大きく異なる（スコアはt-統計量）

文章量バイアス

文中に正解となる情報以外の情報が混ざっている場合（値はt-統計量）

@qluto (Ryosuke Fukazawa)

[blog] Foundation Model for Personalized Recommendation

Netflixの推薦の最近。

Netflixではさまざまなシチュエーションにおける推薦機能を作って運用しているが、メンテナンスコストがやや気になったり、ひとつのモデルに対する改善を他のモデルへと活かすといったところに課題を感じており、それに応えるために推薦のための基盤モデルを作ったという話。

推薦問題をGPTのような next token prediction の問題と捉える。the autoregressive next-token prediction objective, similar to GPT とされているが、実際のモデルアーキテクチャがどのようなものなのかまでは言及していない。（他段階のデコーディングが〜と語られていたりはするので、少なくともdecoderの形はしているのだろう）