【統計力学入門】ゴム弾性や断熱変化を題材として

この記事は, 学校の三学期の物理のために頑張って書いたものの期末試験がなくなったので無になったシケプリを供養したものです. $\gdef\excep#1{\left\langle #1 \right\rangle} \phantom{\excep{a}}$

注意. 高校生を対象に落とし込んだ内容である以上, 学問的に厳密に正しいかと言われるとそうではない箇所が多少ありますが, 大枠としては統計力学の考え方や重要なテクニックを紹介できていると (筆者は) 感じたので, その点をご了承いただいた上でお読みください.

はじめに

還元主義

現代物理学では, 世界を構成する最小単位は素粒子とされている. 現代物理学が提示する世界描像は, われわれの体やまわりの物はもちろん, 心や思考, 感情, 認識, その他もろもろのすべては素粒子に還元され, その支配法則は現代物理学に典拠しているとみなしているのだ.

"断絶"

しかし, このような捉え方は明らかに直観的ではない. 原子論が唱えられてから "常識" として採択されるまでには非常に長い道のりがあり, その歴史について記すだけで本が三冊は書けてしまう. それほどにわれわれは「ミクロ」と「マクロ」との断絶を感じているというわけであり, 未だなおその断絶を完全な形で埋めることには成功していない.

マクロな系

力学をすでに学んでいる人間にとって, 考察すべき粒子数が増えれば増えるほど難しくなることは自明の理である. たしかに二体問題までならば適切に解析することができるが, 三体問題となると (ある程度マトモな形で) 一般に解くことはできないことが知られている. では $10^{23}$ 個オーダーの分子からなる系の性質を二階の非線形微分方程式を用いて考察することなどできるのだろうか? どれだけコンピュータが発展しようと, 計算力だけでなく測定精度の問題があるために無理である. ところが, マクロな系が「平衡状態」という特殊な状態にあるときは力学の問題を完全に解かずにマクロな物理量のふるまいを正確に特徴づけることができる. この「逆転」を利用して, ミクロな世界の力学法則に基づきマクロな世界を記述する体系を統計力学という. その記述には力学の言葉よりも確率論の言葉を用いる方が自然なのである.

欲しい理論

しかし, 気体や固体, 磁性体, とにかくこういった統計力学の対象となるマクロな系は一般にきわめてミクロな構造を持っており, その詳細を量子論的なレベルにまで正確に知ることは (量子論に内在的に起因した制約として!) できない. というわけで, ミクロな情報からマクロな物理量が正確に計算できるようになったところで大してご利益はない. 欲しいものは, 系のミクロな詳細に依存しない普遍的なふるまいを探し出し, それらを的確に記述することなのである.

普遍性

マクロな系がひとたび平衡状態に落ち着けば, 平衡状態を維持する環境, 系の過去の歴史, 系のまわりの様子など, 様々な詳細に全く依存せず, 系のマクロなふるまいが決定されてしまう. 平衡統計力学が見事に成功し, 完全に一般的な枠組みを確立したのはまさにこの事実に依るのだ. かといって (普遍的なふるまい自体が多様なのだから) 統計力学が単純な分野というわけではない.

確率論

サイコロを確率的に扱う?

小学生は屁理屈が好きである. 大坂城を建てたのは誰? 豊臣秀吉! ブブーッ, 大工さんです*1……そのようにして「同様に確からしいサイコロ……」などと言おうものなら「あっ本当はサイコロを作るときに穴のせいで質量が傾いて出やすい目は違うんだぜ! それに投げ方や着地面の性質に依存してるんだぜ!」と返されてしまうのも小学校高学年になるとよく見られる牧歌的光景である. しかしこの少年はひとまずの第一段階としては非常に鋭い視点を持っている. だいたい, ダーツで遊ぶときに「このダーツがあそこに当たる確率は同様に確からしいから……」などとのたまう狂人はいないだろう. それはひとえにニュートン力学における一様重力場上の投射運動とほぼみなせるレベルの運動であれば, 人間もわりかしコントロールができてしまうからだ. ではサイコロがちゃんと運ゲーとして採択されるほどコントロールが難しいのはなぜだろうか? それは空中での重心運動のように「手に負える」ものではなく, 剛体の回転運動をきちんと力学的のみならず物性的にも判定するという極めて困難な「手に負えない」部分が本質的に効いてくるからだ. この「手に負えない」部分は残念ながら力学的な微分方程式をゴリゴリとするのではなく確率論に基づいて記述する方がよほど見通しよく説明できることがこの数百年の歴史によってそのまま実証されてしまっているのである. 平衡統計力学とは, 「手に負えない」膨大なミクロな自由度を確率で記述し, 少数の「手に負える」マクロな自由度を熱力学と整合するように記述する体系なのである.

確率の意味

このような話をしていると次のような意見をよく耳・目にする:

1 から 6 のどの目が出るかをわれわれが事前に全く知らなければ, すべての目を対等に扱うべきである. よって, すべて $1/6$ の確率で出るとすればよい.

これは全くの詭弁だ. 「海王星に人間型の生命がいる確率は?」「われわれは何も知らないから, 『人間型の生命がいる』場合と『人間型の生命がいない』場合を対等に扱うべきである. よって, 確率は $1/2$ である」という会話を聞けば誰でも異常だと判断できるはずであり, 単に「知らない」ということを確率による記述と算出の根拠にすることはできない. 必要なのは「何度も何度もくり返し観測したとき, 1 から 6 の目がほぼ等しい割合で, 何の規則性もなく出現する」という観測事実にほかならない.

注意. 確率とは, 全測度が $1$ の測度である. しかし標本空間が有限である限り, 測度論を使わず素朴な議論で済ませることが可能である.

方言

確率論での術語と物理学での術語とは指すものは同じでも表し方が違うというケースがままある. ここでいくつか前もって整理しておこう. まずこれから考察する相手をという. 一つの系が与えられると, その系のとりうる基本状態が列挙できる. 基本状態を一つ選んだとき, 真か偽かが確定するようなものを事象, 値が確定するようなものを物理量という. 物理量 $\hat{f}$ が基本状態 $i$ において取る値を $f_i$ と書く.

例. 「サイコロを一つ投げて, どの目が出るかを見る」という問題において, 基本状態は「1 から 6 のどの目が出たか」になる. 事象としては「出た目が偶数である」とか「出た目が 5 以上である」とかが考えられる. 「出た目」や「出た目の 2 乗」は物理量である.

確率

ここまでが「入れ物」の設定だったが, 確率を入れることによってストーリーの幕が開ける. 確率は基本状態 $i$ に対して非負実数を与えるが, すべての確率の和が $1$ で (規格化条件を満たしてい) なければならない. すべての基本状態について確率を並べたもの $\bm{p}=(p_1,\dots,p_n)$ を確率分布という.

特性関数

特性関数 $\chi_i[A]$ とは, 基本状態 $i$ において $A$ が真なら $1$ を偽なら $0$ を返す関数である. 事象 $A$ が生じる確率 $\operatorname{Prob}_{\bm{p}}[A]$ を $\sum p_i\chi_i[A]$ で表すことができる*2.

確率論と物理の橋渡し

ある事象 $A$ の起きる確率 $\operatorname{Prob}_{\bm{p}}[A]$ がきわめて $1$ に近いなら, 一回の観測を行ったとき, 事象 $A$ は "ほぼ確実" (これは測度論的な意味での a.s. とは違う意味である) に起きると考えることが, 確率論と物理を唯一繋げるのである.

期待値

確率分布 $\bm{p}$ に関する物理量 $\hat{f}$ の期待値を $\excep{\hat{f}}_{\bm{p}}=\sum f_i p_i$ とする.

ゆらぎ

サイコロを $1$ 回振って「おっ $3.5$ が出るぞ〜」と期待する人間は狂人である. 実際の物理量は期待値のまわりでゆらぐので, 確率分布 $\bm{p}$ における物理量 $\hat{f}$ の標準偏差をゆらぎ (fluctuation) といい, $\sigma_{\bm{p}}[\hat{f}]$ で表す. 測定値は「期待値 $\pm$ ゆらぎ」だと考えられる.

  1. サイコロ 2 つを振ったときの目の和の期待値のゆらぎを計算せよ.
  2. サイコロを $N$ 個振ったときの目の和の期待値のゆらぎを計算せよ.
  3. 上の結果を用いて, 測定値の相対誤差が $\sqrt{N^{-1}}$ 程度であることを示せ.

まず統計を勉強した人間はサイコロ 1 つを振ったときの目の確率変数 $X$ に対し

$$\excep{X}=\frac{7}{2},\ \excep{X ^ 2}=\frac{91}{6},\ \sigma[X]=\sqrt{\frac{35}{12}}$$

が成り立つことぐらいは瞬間で言える. これは覚えるとかいう次元ではなく, 口をついて出てくるほどありきたりな数字だから計算する必要すらないからだ. 今回の期末試験でもきっと有用な数字だろうから覚えておきたい.

1.

サイコロの確率変数を $X_1$, $X_2$ とおく. $$\excep{X_1+X_2}=\excep{X_1}+\excep{X_2}=\frac{7}{2}+\frac{7}{2}=7$$ であり, $$\excep{(X _ 1+X _ 2) ^ 2}=\excep{X _ 1 ^ 2}+2\excep{X _ 1 X _ 2}+\excep{X _ 2 ^ 2}=\frac{91}{6}+2\left(\frac{7}{2}\right) ^ 2+\frac{91}{6}=\frac{329}{6}$$ である. よって, $$\sigma [ X _ 1 + X _ 2 ] =\sqrt{\frac{329}{6}-7 ^ 2}=\sqrt{\frac{35}{6}}.$$

2.

サイコロの確率変数を $X_1,\dots,X_N$ とおく.

$$\excep{\sum X _ i}=\excep{X _ 1}+\cdots\excep{X _ n}=N\excep{X}$$ 和や積分のダミー変数は任意に取り替えられることに注意して,

$$\excep{\left(\sum X _ i\right) ^ 2}=\excep{\sum _ i X _ i \sum _ j X _ j}=N\excep{X ^ 2}+(N ^ 2-N)\excep{X} ^ 2$$ と計算できる. ただし 2 つ目の等号で $i=j$ の場合と $i\neq j$ の場合とで場合分けして個数と値を計算する必要がある. ゆらぎは, $$\sigma \left[ \sum X_i \right] =\sqrt{N\excep{X ^ 2}+(N ^ 2-N)\excep{X} ^ 2-(N\excep{X}) ^ 2}=\sqrt{N\excep{X ^ 2}-N\excep{X} ^ 2}=\sqrt{\frac{35}{12}N}.$$

3.

「$\pm$ ゆらぎ」の誤差があるということは, 相対的には $\dfrac{2\sigma[\sum X_i]}{\excep{\sum X_i}}$ の誤差を持っている. これを計算して $\sqrt{\dfrac{20}{21}}\sqrt{N^{-1}}$ を得る.

情報理論

情報量

$N$ 個の独立で等確率な事象 $X_1, \dots, X_n$ のうち「$X_i$ が起きた」という情報の "情報量" $I(N)$ が満たすべき条件を考え, その条件から関数形を定めよう*3. まず情報量の加法性 $$\forall a, b \in \mathbf{R},\quad I(ab)=I(a)+I(b)$$を課そう.

しかしながら, (選択公理を仮定すると) このような関数は無限個存在する.

証明. $J(x)=I(e^x)$ とすれば $J(x+y)=J(x)+J(y)$ という Cauchy の方程式を満たし, そのような関数はZFCのもとで無限に存在することが知られている (Hamel, 1905 の仕事. 詳しくは https://fuchino.ddo.jp/notes/additive.pdf を見よ).
$\blacksquare$

仕方ないので微分可能性を課してみると, $$I'(x)=\lim _ {\varepsilon\to 0} \frac{I(x+\varepsilon x)-I(x)}{\varepsilon x}=\lim _ {\varepsilon\to 0}\frac{I(x)+I(1+\varepsilon)-I(x)}{\varepsilon x}=\frac{1}{x}\lim _ {\varepsilon\to 0}\frac{I(1+\varepsilon)}{\varepsilon}$$ において $\displaystyle\lim_{\varepsilon\to 0}\frac{I(1+\varepsilon)}{\varepsilon}$ が有限確定値でなければならず, それを仮に $c$ とおくと, $I'(x)=c/x$ より, 積分して $I(x)=c\log_e x+d$ を得る.

$c$ は対数の底と次元を司る規格化定数である. そもそも情報の最も基本的な形は, 2 つの事柄のうちから 1 つを選択し教えてくれるもの, すなわち Yes—No クエスチョンである. このような二者択一の情報を基本単位とし, その単位を bit とし, $I(2)=1\,\text{bit} $ なので $c=\log_{2}{e}$ と置くことが多い.

$I(1)=I(1\times1)=I(1)+I(1)$ より $I(1)=0$*4なので $d=0$.

$N$ 個の事象のうち $M$ 個の組が起きることを「事象 $A$ が起こった」と呼ぶとき, この確率は $p_A=\dfrac{M}{N}$ である. この情報量 $I[A]$ は $$I[A]+I(M)=I(N)$$

であるから, $$I[A]=I(N)-I(M)=c\log\frac{N}{M}=-c\log p_A$$ が成り立つ.

これを以ってエントロピーを情報量の期待値として定義する. $$\excep{I}=\sum _ {i} p _ i(-c\log p _ i)=-c\sum _ {i} p _ i\log p _ i$$

たとえば $N=1$ のサイコロでは $p_1=\cdots=p_6=1/6$ であり, $$\excep{I}=c\log6=\log_2{6}\simeq 2.6 \text{bit}$$である. この事実は次のように解釈できる.

6 つの部屋のうちどれかに粒子が入っているとき, 「左と右のどちらですか?」という $1\,\text{bit}$ の質問を繰り返して当ててみよう. このとき, 2 回では確実には当てられないが 3 回で必ず当てられることがわかる. これはひとえに「2 回で確実に当てられるのは 4 つまで, 3 回で確実に当てられるのは 8 つまで」という事実に起因しており, bit がいかに直観的な解釈がしやすい基本単位であるかを如実にあらわしているのである.

状態数 $W$ が与えられ, $p_i=p=1/W$ という等確率分布においてエントロピーは $c\log W$ である (容易に計算できる). これはミクロカノニカル分布と呼ばれるもので, $c=k_{\mathrm{B}}$ とすれば情報量の期待値という意味での Shannon エントロピーと純粋な統計力学から従う平衡状態の物理的なエントロピーと一致する. また, 次の命題から「平衡状態は最も情報量が多い状態である」と考えることができる.

定理. 等確率分布はエントロピーを最大値にする.
証明. 目的関数 $f(p_1,\dots,p_n)=-\sum p_i\log p_i$ と束縛条件 $g(p_1,\dots,p_n)=\sum p_i-1$ に対し Lagrange の未定乗数法を用いる. すなわち$$\forall i,\frac{\partial}{\partial p_i}(f+\lambda g)=-\left({\frac {1}{\ln 2}}+\log _{2}p_{i}\right)+\lambda=0$$が必要条件であり, 変数は $\lambda$ だけであるため極値があるとすればそれは $p_1=\cdots=p_n$ である. ここでエントロピーが凹関数であることが示せるので, たしかに等確率分布が最大値を与えることが示された.
$\blacksquare$

追記. 離散一様分布(等確率分布)がエントロピーを最大にすることはたしかに Lagrange の未定乗数法により計算できはするものの, そこで凹関数であることに触れるのであれば単に凸不等式を使えばよい話であった:

manabitimes.jp

実際に, この事実は 1990 年の東工大前期の第 2 問で問われている.

$x _ i$ ($i=1,2,\dots,n$) を正数とし, $\displaystyle\sum _ {i=1} ^ {n}x _ i=k$ をみたすとする. このとき不等式 $$\sum_{i=1}^{n}x_i \log{x_i} \geqq k\log{\frac{k}{n}}$$ を証明せよ.

鎖状高分子の弾性

古典的な統計力学の興味深い応用として鎖状高分子の弾性が挙げられる.

一般に高分子というのは分子量が一万以上の大きな分子を指す. ここで言う鎖状高分子とは, 単量体 (monomer) と呼ばれる基本単位が次々と鎖状につながってできた長い高分子であり, 天然ゴムの成分であるポリイソプレンやDNA, ポリエチレン, ポリスチレンなどが代表例である.

興味深いことに, 「長くて折れ曲がりやすい」という性質と統計力学の効果だけから, 弾性的なふるまいが現れてくる. これこそ「系のミクロな詳細に依存しない普遍的なふるまい」の好例である. ゴムを引っ張ると伸び, 手を離すとまた縮むのは, この普遍的な性質に起因している. ちなみに普通の金属製のバネが弾性的なふるまいを生み出しているのは, 金属の原子同士を結びつける結合の力であって, 今から考察する高分子の弾性とは全く出自の異なるものである.

$N$ 個の長さ $a$ の微小な棒が連結した一次元鎖を考える. 各連結点で棒は $1/2$ の等確率で左右を向くとする. ここで $N \gg 1$ とし, "状態数" $W$ に対する平衡状態のエントロピーは $S = k_{\mathrm{B}} \log W$ で求まるものとする.

一次元鎖の "状態" は「右右左右…」という配列と一対一に対応するため, "状態数" $W$ はその並べ方の総数 $\binom{N}{n}$ 通りである. エントロピー $S$ は $k_{\mathrm{B}}\log \binom{N}{n}$ と表される. これは Stirling の公式 $$\log n! = n\log n - n + o(n) \ (n\to\infty)$$ を用いて次のように計算できる.

$$\frac{S}{k_{\mathrm{B}}} = \log W = \log \binom{N}{n} = \log \dfrac{N!}{(N-n)!n!}= \log N! - \log (N-n)! - \log n! = N\log N - (N-n)\log(N-n) - n\log n + o(n)$$

注意. ここで $N$, $n$, $N-n$ が $0$ だと定義されないことに気がつく方もいるだろうが, 今やっているのは数学ではなく物理である. 全体の状態数は $10^{23}$ 個オーダーなど余裕で超えてくる. そのうち $N=0$ または $n=0$ または $N=n$ のたかが 3 つの場合など省いて考えてしまっても全く問題ない.

ここで $n$ に対するエントロピー $S$ の変化率を評価したいので, 本質的に効いてくる項は $-(N-n)\log(N-n)-n\log n$ だけであり, これを微分する. 積の微分と合成関数の微分に注意して, $$\frac{dS}{dl}=k_{\mathrm{B}}\log\frac{N-n}{n}$$を得る.

さて, $n$ 本の棒が右を向いているとき, $N-n$ 本の棒が左を向いている. 両端間距離が $l$ なので, $(n-(N-n))a=l$ が成り立ち, $n=\dfrac{Na+l}{2a}$ を得る. したがって

$$\frac{dS}{dl}=\frac{dS}{dn}\frac{dn}{dl}=\frac{k _ {\mathrm{B}}}{2a}\log\frac{N-n}{n}=\frac{k _ {\mathrm{B}}}{2a}\log\frac{Na-l}{Na+l}=\frac{k _ {\mathrm{B}}}{2a} \left( \log \left( 1-\frac{l}{Na} \right) -\log \left(1+\frac{l}{Na} \right) \right) =\frac{k _ {\mathrm{B}}}{2a} \left( -\frac{l}{Na}-\frac{l}{Na} \right) +o(n) \simeq -\frac{k _ {\mathrm{B}}}{Na ^ 2}l$$

を得る.

なお, $\dfrac{1}{2}m\excep{v} ^ 2=\dfrac{3}{2}k _ {\mathrm{B}}T$ より $k_{\mathrm{B}}$ の単位は $[\text{J/K}]$ であるから, $[dS/dl]\sim[\text{N/K}]$ である. ここで $dS/dl \times T \propto F = -kl$ と次元解析により力学的な解釈が与えられ, まさに $k=\dfrac{k _ {\mathrm{B}}T}{Na ^ 2}$ という比例定数における Hooke の法則が一次近似としては成立しているということがわかった.

温度がある程度大きくなると, 個々の粒子はなるべきバラバラに広い範囲を動き回ろうとする. つまり鎖が伸びているとエネルギーは低い (有利) が動き回る範囲は狭い (不利). 一方縮んでいるとエネルギーは高い (不利) が動き回る範囲は広い (有利). 粒子はエントロピーを増やそうとする傾向があることを考えると, ゴム弾性は「伸ばすとエントロピーが減るので縮むことでエントロピーを増大させようとする」という原理によって働くものであると言えるのである.

断熱変化とエントロピー

Newton 力学において粒子の運動は位置 $\bm{x}=(x,y,z)$ と運動量 $\bm{p}=(p_x,p_y,p_z)$ により定まり, この 6 次元の空間を相空間 (phase space) という. ここで理想気体を考える際には質量を考えなくてよかったので速度 $\bm{v}=(v_x,v_y,v_z)$ を考えるだけでよく, これから誘導される 3 次元 Euclid 空間を速度空間という.

$N$ 粒子からなる単原子分子理想気体の状態数変化を統計力学的に考察しよう.

位置に関する状態数は, 体積の相加性により粒子 1 つあたり $\dfrac{V_2}{V_1}$ 倍となり, $N$ 粒子では $\left(\dfrac{V_2}{V_1}\right) ^ N$ 倍となる.

速度に関する状態数は, 球の体積が $4\pi r ^ 3/3$ なので, 粒子 1 つあたり $\left(\dfrac{v_2}{v_1}\right) ^ 3$ 倍となる. $N$ 粒子では, 速さの期待値が $\sqrt{\excep{v _ 1 ^ 2}}$ から $\sqrt{\excep{v _ 2 ^ 2}}$ へと変化したとき$$\left(\left(\dfrac{\sqrt{\excep{v _ 1 ^ 2}}}{\sqrt{\excep{v _ 2 ^ 2}}}\right) ^ 3\right) ^ N=\left(\dfrac{\sqrt{\excep{v _ 1 ^ 2}}}{\sqrt{\excep{v _ 2 ^ 2}}}\right) ^ {3N}=\left(\dfrac{\excep{v _ 1 ^ 2}}{\excep{v _ 2 ^ 2}}\right) ^ {3N/2}$$倍となる.

状態 $(V_1,T_1)$ から状態 $(V_2,T_2)$ へと変化したとき, $\dfrac{1}{2} m \excep{v ^ 2} = \dfrac{3}{2}k _ {\mathrm{B}}T$ より $\excep{v ^ 2}=\dfrac{3k _ {\mathrm{B}}}{m}T$ が成り立つことを用いて, $W(V _ 2)\Omega(T _ 2)=\left(\dfrac{V _ 2T _ 2 ^ {3/2}}{V _ 1 T _ 1 ^ {3/2}}\right) ^ N W(V _ 1)\Omega(T _ 1)$ と計算できる.

このときのエントロピー変化は $\displaystyle\Delta S = S _ 2 - S _ 1 = k _ {\mathrm{B}} (\log W(V _ 2)\Omega(T _ 2)-\log W(V _ 1)\Omega(T _ 1)) = k _ {\mathrm{B}} \log \left(\frac{V _ 2 T _ 2 ^ {3/2}}{V _ 1 T _ 1 ^ {3/2}}\right) ^ N$ と計算できる.

仮に定エントロピー変化 ($\Delta S=0$) であったならば Poisson の関係「$VT ^ {3/2}$ が定数」が成り立つので, これは断熱変化を表している.

Sackur-Tetrode 方程式 $$S=Nk _ {\mathrm{B}}\log \left(e ^ {5/2}\left(\frac{mk _ {\mathrm{B}}}{2\pi\hbar ^ 2}\right) ^ {3/2}\frac{VT ^ {3/2}}{N}\right)$$

授業ではあたかも量子論を援用しなければこの式が求められないように説明されたが, たとえば別に粒子配位の重複解消などは必要ない. 詳しくは田崎『統計力学 I』5.2 を見よ.

*1:この種の屁理屈が最も適切に見られるのは I cut my hair. とは言わずに I had my hair cut. と言うのを好むという英語の語法事項であったりする.

*2:これは難しそうに見えるが冷静になれば自明である.

*3:このような手法は物理学のみならず数理科学における基礎手法である.

*4:これは「事象が 1 個だけの場合はそもそも情報量が $0$」と対応する.