L1ノルムがスパース解を選ぶ理由

なぜ L1 最小化は自然にスパースな解を生むのか。幾何学的な直感から説明する。


問題の設定

方程式の数より未知数の方が多い、いわゆる 劣決定系 がある。

Ax=b,ARm×n,m<nA \mathbf{x} = \mathbf{b}, \quad A \in \mathbb{R}^{m \times n}, \quad m < n

解は無数に存在する。このとき「どの解を選ぶか」というのが問題になる。

よく使われる基準が2つある。L2ノルム最小化(最小ノルム解)と L1ノルム最小化(スパース解)だ。結果はかなり違う。


L2 の幾何学:球が接触する

L2ノルム x2=xi2\|\mathbf{x}\|_2 = \sqrt{\sum x_i^2} を最小化するというのは、原点を中心とした を少しずつ膨らませていき、制約面 Ax=bA\mathbf{x} = \mathbf{b} に初めて触れた点を解とする、というイメージだ。

2次元で考えると、x2=r\|\mathbf{x}\|_2 = r の等高線は円。制約 ax+by=cax + by = c は直線。円が直線に接する点は、一般的にどこか中途半端な場所になる。つまり x10,x20x_1 \neq 0, x_2 \neq 0——スパースではない。


L1 の幾何学:菱形の角が当たる

L1ノルム x1=xi\|\mathbf{x}\|_1 = \sum |x_i| の等高線はどんな形か。

2次元なら x1+x2=r|x_1| + |x_2| = r菱形(ダイヤモンド形)。3次元なら八面体。一般に n 次元では 超八面体(クロスポリトープ) になる。

これが鍵だ。多面体の等高線を膨らませていくと、制約面との最初の接触は 頂点(または稜線)で起こりやすい。頂点というのは座標の1つ以外がゼロになっている点だ。つまり自然にスパースな解が選ばれる。

具体的に言うと、n 次元の L1 球の頂点は (±r,0,0,),(0,±r,0,)(±r, 0, 0, \ldots), (0, ±r, 0, \ldots) など、1成分だけが非ゼロの点。制約面が一般的な傾きを持っている限り、この頂点のどれかが最初に当たる確率が高い。


どのくらいスパースになるか

少し定量的な話をする。ランダムな m×nm \times n 行列 AAmnm \ll n)に対して、真の解 x\mathbf{x}^* が高々 kk 個の非ゼロ成分を持つとき、L1 最小化によって正確に x\mathbf{x}^* が復元できる条件が知られている。

その条件を 制限等長条件(RIP: Restricted Isometry Property) と呼ぶ。直感的には「行列 AA がどんな kk-スパースなベクトルも大きく歪めない」という条件だ。ランダムガウス行列や特定の構造化行列はこれを満たすことが多い。

(1δk)x22Ax22(1+δk)x22(1 - \delta_k)\|\mathbf{x}\|_2^2 \leq \|A\mathbf{x}\|_2^2 \leq (1 + \delta_k)\|\mathbf{x}\|_2^2

δk\delta_k が十分小さければ、L1 最小化で真のスパース解が得られる。これが 圧縮センシング(Compressed Sensing) の核心部分だ。


実用でどう出てくるか

機械学習の Lasso(L1正則化線形回帰) も同じ幾何学が働いている。

minwyXw22+λw1\min_{\mathbf{w}} \|y - X\mathbf{w}\|_2^2 + \lambda \|\mathbf{w}\|_1

正則化項 λw1\lambda \|\mathbf{w}\|_1 が L1 球を作り、その多面体の角に解が引き寄せられる。結果として多くの係数がちょうど 0 になる——Ridge 回帰(L2正則化)では係数は小さくなるが、ゼロにはなりにくい。

RF の文脈だと、スパースアンテナアレイの設計や、圧縮センシングを使ったレーダー信号処理にも出てくる話だ。


まとめ

L2 最小化L1 最小化
等高線の形球(滑らか)菱形・多面体(角あり)
接触点の傾向一般的な位置(非スパース)頂点・稜線(スパース)
代表的な手法最小二乗法、Ridge 回帰圧縮センシング、Lasso

「スパースな解が欲しい」というときに L1 ノルムを使う理由は、直感的には「菱形の角が制約面に当たりやすい」というそれだけの話だ。幾何学として見ると、なんとなく腑に落ちる気がする。

— ランキン

コメント

まだコメントはないよ。最初のひとことをどうぞ。