橋本 Hashimoto   Baku

橋本 Hashimoto   Baku

高次元ほど勾配法で局所最小値に取り残されづらい (Scratchpad)

This page is a personal scratchpad.

言い換えると、直観には反するものの、ニューラルネットでは単純な問題より複雑な問題のほうが容易に解けるということだ。その理由を大ざっぱに言うと、「重み変数」が大量にあると、高次元の空間に「多方向の道」ができ、それが最小値へとつながることがある。それに対して、変数が少なくなると、単純に局所最小値、つまり「山間の湖」にはまりこんでしまい、そこから「抜け出す道」がなくなるのである。
『ChatGPTの頭の中 - Steven Wolfram』 p.54

確かに。

水で考えるとわかりやすい

  • 1次元なら、水をせき止めるのに両端をふさげば済む
  • 2次元なら、周囲をぐるっと囲む必要がある
  • 3次元なら袋で包むしかない
    次元が上がるほど、完全に封じ込めるための「面」が増える
    だから、水はどこかから漏れるし、勾配もどこかに流れる

ここからの仮説:
僕らがチューニング対象として扱える潜在空間に、ある程度の次元数があるなら、近視眼的な局所最適化でも、袋小路に閉じ込められるリスクは意外と小さいんじゃないか

これは、市場原理の説明にも通じる。プレイヤーがそれぞれ利己的・近視眼的に行動しても、全体としてはそれなりに最適化されてしまうことがあるのは、探索空間が十分に高次元だから

ただし、それが成立するのは、プレイヤーにとっての潜在空間の次元数 = 意識して回せる「ツマミ」の数、探索空間の次元にそこそこ迫っている場合だけだ

探索空間と潜在空間