ビジュアル音声学 練習問題 解答例

川原繁人. (2018). ビジュアル音声学. 三省堂. の練習問題に非公式の解答例を付けました。ただし、本文中の内容を読者が自ら再確認することそのものが求められている問題はすべて省略したので、逆に言うと以下で解答が略されている問題のうち「自分で」旨の文言がないものは必ず本文中のどこかにその解答が載っているということです。

誤りがあればコメント欄などでご指摘いただけると幸いです。

2 調音音声学

2.2.1: 調音点基礎

練習問題 1

略。

練習問題 2

略。

練習問題 3

グループ 1 の受動調音器官は歯茎であり、仲間はずれの音は [w] である。

グループ 2 の受動調音器官は両唇であり、仲間はずれの音は [k] である。

グループ 3 の受動調音器官は軟口蓋であり、仲間はずれの音は [ʔ] である。

  1. [ɸ] の能動調音器官は唇である。
  2. [z] の能動調音器官は舌頂である。
  3. [ɕ] の能動調音器官は舌頂と舌背である。
  4. [dʒ] の能動調音器官は舌頂と舌背である。
  5. [g] の能動調音器官は舌背である。
  6. [ʔ] の能動調音器官は喉頭である。

2.3.1: 調音法

練習問題 1

グループ 1 の調音法は閉鎖音であり、仲間はずれの音は [n] である。

グループ 2 の調音法は鼻音であり、仲間はずれの音は [p] である。

グループ 3 の調音法は摩擦音であり、仲間はずれの音は [t] である。

グループ 4 の調音法は半母音であり、仲間はずれの音は [n] である。

2.3.4: EPG で見る調音法

練習問題 1

略。

2.4.3: PGG で見る有声性

練習問題 1

略。

2.5: 調音点・調音法・有声性のまとめ

練習問題 1

  1. 有声両唇閉鎖音
  2. 無声歯茎閉鎖音
  3. 無声歯茎摩擦音
  4. 歯茎鼻音
  5. 無声歯茎口蓋摩擦音
  6. 有声歯茎口蓋破擦音
  7. 硬口蓋摩擦音
  8. 有声軟口蓋閉鎖音
  9. 軟口蓋鼻音
  10. 喉頭閉鎖音

2.6.1: 日本語の母音

練習問題 1

略。

練習問題 2

  • おやすみ
  • やったー
  • ありがとう

2.7.1: EMA で見る調音運動

練習問題 1

略。

2.8.2: 有声阻害音における空気力学

練習問題 1

有声阻害音を調音するには口腔内気圧の上昇を緩やかにする必要があるが、その際に鼻腔に少し空気を流すと、その分だけ口腔内空間を膨張させる負荷が減少するから。

練習問題 2

略。

練習問題 3

無声子音を調音するには口腔内気圧を上げる必要があることが多く、高母音では舌が上がっており口腔内気圧が上がったままになりやすいので、無声子音に挟まれた高母音中に声帯振動を起こすためだけに口腔内気圧を一時的に下げるのには負荷がかかるから。

練習問題 4

[d] は [t] よりも舌と口蓋の接触面積が小さい。この違いは、有声阻害音 [d] を調音するには口腔内気圧の上昇を緩やかにせねばならず、そのために歯茎の前方にのみ舌頂を接触させて口腔内空間を大きくする必要があることに由来する。

2.9.1: 促音

練習問題 1

略。

練習問題 2

松井理直・川原繁人・シャージェイソン. (2016). EPG を用いた日本語歯茎促音の調音的特徴. 音声学会全国大会予稿集. にもあるように、図 2.9.1-3 の摩擦音 [s] と [ss] の調音データからは調音動態に有意な差を認めることはできない。

2.9.2: アクセント

練習問題 1

日本語母語話者であればどのようなアクセントを答えても必ず正しいことになるが、一例として日本放送協会放送文化研究所. (2016). NHK日本語発音アクセント新辞典. NHK出版の記述するアクセントを示しておく。

  1. 心: ココ\ロ・ココロ\
  2. 頭: アタマ\・アタ\マ
  3. 燃える: モエル ̄
  4. 萌える: モエル ̄
  5. 中村: ナカムラ ̄
  6. ヨーグルト: ヨーグ\ルト
  7. ラケット: ラケ\ット
  8. うす暗い: ウスク゚ライ ̄・ウスク゚ラ\イ

3 音響音声学

3.2.1: 三角関数基礎

練習問題 1

略。

練習問題 2

図 3.2.1-2 の直角三角形は必ずしも常に存在するとは限らないが、存在しない場合には明らかであり、存在する場合にはピタゴラスの定理により $a ^ 2+b ^ 2=c ^ 2$ が成り立ち、両辺を $c ^ 2$ $(\neq0)$ で割ることで主張が示される。

練習問題 3

略。

3.2.2: 様々な正弦波

練習問題 1

  1. $T=\dfrac{1}{200\text{ Hz}}=\dfrac{1}{200}\text{ s}=\dfrac{1}{200}\times10 ^ 3\text{ ms}=5\text{ ms}.$
  2. $f=\dfrac{1}{25\text{ ms}}=\dfrac{1}{25\times10 ^ {-3}}\text{ s} ^ {-1}=40\text{ Hz}.$
  3. $100\text{ Hz}\times100\text{ ms}=100\text{ s} ^ {-1}\times100\times10 ^ {-3}\text{ s}=10.$

3.2.3: 疎密波を横波に変換する

練習問題 1

略。

3.2.4: 音の強さ・大きさ…デシベルとパスカル

練習問題 1

ノイズの方がシグナルよりも大きければ $$0<\dfrac{S}{N}<1$$ であるから、底が $1$ より大であることに注意して両辺の常用対数をとると $$\dfrac{\text{SNR}}{20}=\log _ {10}\dfrac{S}{N}\text{ dB}<\log _ {10}{1}\text{ dB}=0\text{ dB}$$ となる。

練習問題 2

  1. $0.2\text{ Pa}=20\times\log _ {10}\dfrac{0.2}{20\times10 ^ {-6}}\text{ dB}=80\text{ dB}.$
  2. $2\times10 ^ {-6}\text{ Pa}=20\times\log _ {10}\dfrac{2\times10 ^ {-6}}{20\times10 ^ {-6}}\text{ dB}=-20\text{ dB}.$

練習問題 3

本文中の記述から $20\log _ {10}2\approx6$ であることがわかっているので、$$\text{SNR}=20\log _ {10}\dfrac{S}{N}\text{ dB}=12\text{ dB}$$ であれば $$\dfrac{S}{N}\approx 2 ^ 2=4$$ である。実際に計算すると $3.98\dots$ となり、有効数字二桁の正確性を持っている。

3.2.5: 波を重ねる・分解する…スペクトル

練習問題 1

略。

練習問題 2

ここでは定量的な考察を必要としているわけではないので、以下の定性的な特徴が捉えられていればよい。

  • のこぎり波は最も低い周波数 $f_0$ の正の整数倍だけに成分を持ち、かつ狭義単調減少である。
  • 矩形波はのこぎり波の成分を $f_0$ の正の奇数倍だけに制限することで得られる。

youtu.be

練習問題 3

  • ホワイトノイズはすべての周波数が正の定数の振幅を持っているので、長方形のスペクトルが得られる。
  • ピンクノイズは反比例のグラフと周波数の軸の間を塗り潰したスペクトルになるが、両対数グラフでは傾き $-1$ の右下がり直線と周波数の軸の間を塗り潰したスペクトルになる。なぜならば、ピンクノイズは周波数 $f$ の音圧レベルが $S(f)=1/f$ となる音として定義されており、$f ^ \prime=\log _ {10}{f}$ とおけば $S ^ \prime(f ^ \prime)\coloneqq\log _ {10}{S(f)}=\log _ {10}(1/f)=-f ^ \prime$ となるからである。

3.2.6: スペクトルからスペクトログラムへ

練習問題 1

略。

3.3.2: 周波数を求めるために…$f=c/\lambda$

練習問題 1

  1. $25\text{ cm/歩}\times4\text{ 歩/s}=100\text{ cm/s}.$
  2. $120\text{ cm/s}\div40\text{ cm/歩}=3\text{ 歩/s}.$
  3. $200\text{ cm/s}\div25\text{ cm/歩}=8\text{ 歩/s}.$

3.3.3: 一管モデル…境界条件と第一共鳴

練習問題 1

略。

練習問題 2

音波は水面に対して(変位波として)固定端反射すると見なせるので、ペットボトルの水が増えると長さが減るので波長も短くなり振動数が高くなることは定性的に理解できる。定量的には、一管モデルでは $L^{-1}$ の定数倍であるように見えるが、実際には 3.3.6 で解説される Helmholtz 共鳴として扱うべきであり、式 (3) から $L^{-1/2}$ の定数倍であることがわかる。図 3.3.6-3 の細線と点線を見れば、ペットボトルを一管モデルと近似することがいかに粗いか理解できるだろう。

3.3.4: 一管モデル…その他の共鳴

練習問題 1

略。

練習問題 2

略。

練習問題 3

式 (4) より第 $n$ 共鳴の振動数は $f_n=(2n-1)f_1$ であるので、第四フォルマントは $(2\times4-1)\times500\text{ Hz}=3500\text{ Hz}$ であり、第五フォルマントは $(2\times5-1)\times500\text{ Hz}=4500\text{ Hz}$ である。図 3.3.4-3 を見るとたしかに、一管モデルがシュワに対する精度の良い近似になっていることがわかる。

練習問題 4

略。

3.3.5: 二管モデル

練習問題 1

略。

練習問題 2

略。

3.3.6: 三管モデル

練習問題 1

略。

3.4.1: 日本語の母音

練習問題 1

略。

練習問題 2

「お」の第二フォルマントは $$f_{\text{お}2}=\frac{350\text{ m/s}}{8\times10 ^ {-2}\text{ m}\times\frac{4}{2\cdot1-1}}\approx 1094\text{ Hz}$$ であり、「い」の第二フォルマントは $$f _ {\text{い}2}=\frac{350\text{ m/s}}{5\times10 ^ {-2}\text{ m}\times\frac{4}{2\times1-1}}=1750\text{ Hz}$$ である。このことは3音響管モデル(Three-tube Model) – Arai Laboratoryにある

Arai, T. (2012). Education in acoustics and speech science using vocal-tract models. The Journal of the Acoustical Society of America, 131(3), 2444–2454. https://doi.org/10.1121/1.3677245

や、峯松氏が公開している音響音声学の講義資料にも引用されている中川他 (1990) の

中川聖一・鹿野清宏・東倉洋一. (1990). 音声・聴覚と神経回路網モデル. オーム社. p. 92

を見れば、それなりに妥当な値であるように思える。しかし、本書には(著者の公開する補足資料から引用するが)次のような図が載っている。

図 3.4.1-1

図 3.4.1-2 (a)

本書には書かれていないのだが、図 3.4.1-2 (a) の補足資料には「日本語の母音のフォルマント散布図。プロの声優さんのデータをもとに計算したもの」とあるので、そもそもバイアスがかかっている可能性が高い。見た限りでは、ほぼすべてのデータでここまで振動数が高くはなっていなかった。

……と書いた後に Johnson, K. (2012). Acoustic and auditory phonetics (3rd ed.). Blackwell. の 6.1 節 Tube Models of Vowel Production に全く同じ話が載っているのを発見した。

A constriction 11 cm from the glottis in this tube model approximates the vocal tract configuration for the high front vowel [i]. As we will see below, the formant values predicted by the tube model (F1 = 300 Hz, F2 = 1,900 Hz, and F3 = 2,200 Hz) are approximately those found in [i].

練習問題 3

略。

3.4.2: 英語の母音

練習問題 1

略。

3.4.3: 摩擦音

練習問題 1

[ɕ] の共鳴周波数は $\dfrac{350\text{ m/s}}{4\times2\times10^{-2}\text{ m}}=4375\text{ Hz}$ と計算できる。

練習問題 2

無声歯茎硬口蓋摩擦音 [ɕ]、無声軟口蓋摩擦音 [ç]、無声硬口蓋摩擦音 [x]、無声声門摩擦音 [h] の順に調音点が後ろになり管が長くなっていくので、その共鳴周波数は低くなっていく。

練習問題 3

二番目は、一番目より低い周波数帯にエネルギーが集中していることが読み取れるので、調音点がより後ろにあると考えられる。

練習問題 4

$\dfrac{4\times3+2\times2+3\times1}{3+2+1}\approx3.2$.

3.4.4: 破裂音と調音点

練習問題 1

「集約的 vs. 分散的」は F1 と F2 の差を、「鈍 vs. 鋭」は F1 と F2 の平均を目安に分類できると考えられる。

Blomgren, M., Robb, M., & Chen, Y. (1998). A note on vowel centralization in stuttering and nonstuttering individuals. Journal of speech, language, and hearing research : JSLHR, 41(5), 1042–1051. https://doi.org/10.1044/jslhr.4105.1042

図 3.4.1-2 (a) から大雑把に概算するだけでも、「あ」「う」「お」が集約的かつ鈍であり、「い」「え」が分散的かつ鋭であることがわかる。

3.4.5: 様々な調音点のフォルマントへの影響…MinMaxルール

練習問題 1

この問題は「最も頻繁に観察される二重調音が [k͡p] のような両唇軟口蓋音である理由を、MinMax ルール(摂動理論)を用いて [p] と [k] が第一フォルマントと第三フォルマントに与える影響を考えることで相性が良いことを示すことにより説明せよ」というものであり、両唇音 [p] が第一フォルマントと第三フォルマントを下げ、軟口蓋音 [k] が第一フォルマントを少し上げて第三フォルマントを顕著に上げることが簡単にわかるが、このことは「相性が良い」ことの理由にならないと考えるのが自然であろう。

ここで Ohala, J. & Lorentz, J. (1977). The story of [w]: an exercise in the phonetic explanation for sound patterns. Proceedings of the 3rd Annual Meeting of the Berkeley Linguistics Society (1977), pp. 577-599. https://doi.org/10.3765/bls.v3i0.2264 を見ると、

. . . it [This rule] explains why a constriction in either the labial or back velar position will have the similar acoustic effect of lowering the second formant and why simultaneous constrictions at both labial and velar regions will lower it even more. This also explains why, of all speech sounds having two more or less equal places of articulation, labiovelar are so popular: they push the second formant towards an extreme low value and thus produce sounds which are auditory very distinct from other speech segments. No other two simultaneous places of articulation (e.g., labio-palatal, palatal-velar, velar-pharyngeal, etc.) can do the same. The two simultaneous constrictions which would push the second formant to a maximally high value would be one in the palatal region and one in the pharynx immediately above the glottis. We don’t find this, however, because pharyngeal constrictions are difficult and, unlike the situation with labiovelars, the two articulators, tongue tip and tongue root, are not completely independent in their movements (Lindblom, Pauli and Sundberg 1975, Lindblom 1975).

という記述があり、MinMax ルールで両唇軟口蓋音の特異性を説明する際にはむしろ第二フォルマントこそが本質的な要因であると考えるべきであることがわかる。他にも次の文献が参考になるだろう:

3.4.6: 鼻音

練習問題 1

一管モデルを仮定すると、次の周波数の音が共鳴すると考えられる。

$$\begin{aligned} f _ 1&=\frac{350\text{ m/s}}{21.5\times10 ^ {-2}\text{ m}\times\frac{4}{2\cdot1-1}}\approx 407\text{ Hz}\\ f _ 2&=\frac{350\text{ m/s}}{21.5\times10 ^ {-2}\text{ m}\times\frac{4}{2\cdot2-1}}\approx 1221\text{ Hz}\\ f _ 3&=\frac{350\text{ m/s}}{21.5\times10 ^ {-2}\text{ m}\times\frac{4}{2\cdot3-1}}\approx 2035\text{ Hz}\\ f _ 4&=\frac{350\text{ m/s}}{21.5\times10 ^ {-2}\text{ m}\times\frac{4}{2\cdot4-1}}\approx 2849\text{ Hz} \end{aligned}$$

したがって、鼻音化によって第一フォルマントが影響を受けるので、舌の高低を聴者が知覚することが難しくなる。詳しくは Krakow, R. A., Beddor, P. S., & Goldstein, L. M. (1988). Coarticulatory influences on the perceived height of nasal vowels. Journal of the Acoustical Society of America, 83(3), 1146-1158. https://doi.org/10.1121/1.396059 を見よ。

3.4.7: 流音

練習問題 1

略。

3.4.9: スペクトログラムを読み解く

練習問題 1

図 3.4.9-4 は「アイス」、図 3.4.9-5 は「とまれ」だと推測される。

練習問題 2

たとえば無音区間の位置を観察することで、一番目は John に、二番目は repel に、三番目は hatch に対応すると推定される。

3.5.1: 付録 1

練習問題 1

  1. $2 ^ 3\times4\times8=2 ^ 3\times2 ^ 2\times2 ^ 3=2 ^ {3+2+3}=2 ^ 8$ より $x=8$ である。
  2. $27 ^ 3\times9\times3 ^ 2=(3 ^ 3) ^ 3\times3 ^ 2\times3 ^ 2=3 ^ {3\times3+2+2}=3 ^ {13}$ より $y=13$ である。
  3. $(a ^ 3\times b ^ 4) ^ 2\times(a\times b ^ 3) ^ 4=a ^ {3\times2+1\times4}\times b ^ {4\times2+3\times4}=a ^ {10}\times b ^ {20}$ より $z=10$ かつ $w=20$ である。

練習問題 2

  1. $3 ^ 0=1$.
  2. $3 ^ {-2}=\dfrac{1}{3 ^ 2}=\dfrac{1}{9}$.
  3. $2 ^ {(4-6)}=2 ^ {-2}=\dfrac{1}{2 ^ 2}=\dfrac{1}{4}$.
  4. $27 ^ 3\times3 ^ {-3}=27 ^ 3\times(3 ^ 3) ^ {-1}=27 ^ 3\times27 ^ {-1}=27 ^ {3-1}=27 ^ 2=729$.

練習問題 3

  1. $\log_3{27}=3$.
  2. $\log_4{64}=3$.
  3. $\log_a{a}=1$.
  4. $\log_{10}{1000000}=6$.
  5. $\log_3\dfrac{1}{9}=-2$.

3.5.2: 付録 2

練習問題 1

11,050 Hz でサンプリングされた音のナイキスト周波数は 5,525 Hz であり、

母音の特徴は 3,000 Hz 以下の部分に現れるため、y 軸の上限を 5,000 Hz にすると、母音の音響特徴がはっきり見える。しかし、摩擦音の特徴は 3,000 Hz から 9,000 Hz あたりに現れるため、y 軸を 9,000 Hz にすると、摩擦音の音響特徴がよく分かるようになる。よって、最初は 5,000 Hz に設定し、摩擦音が観察された後、その摩擦音の細かな特徴を推測する場合には、y 軸の上限を上げると良い。(p. 168)

とあるように、母音の観察は充分にできるが、摩擦音の観察は充分にはできない。

4 知覚音声学

4.2: 聴覚のメカニズム:耳から脳へ

練習問題 1

芳一の聴力がどうなったのかは物語の結末で説明されている。

日の出前に住職は帰って来た。急いですぐに裏の縁側の処へ行くと、何んだかねばねばしたものを踏みつけて滑り、そして慄然ぞっとして声をあげた――それは提灯の光りで、そのねばねばしたものの血であった事を見たからである。しかし、芳一は入禅の姿勢でそこに坐っているのを住職は認めた――傷からはなお血をだらだら流して。

『可哀そうに芳一!』と驚いた住職は声を立てた――『これはどうした事か……お前、怪我をしたのか』……

住職の声を聞いて盲人は安心した。芳一は急に泣き出した。そして、涙ながらにその夜の事件を物語った。『可哀そうに、可哀そうに芳一!』と住職は叫んだ――『みな私の手落ちだ!――酷い私の手落ちだ!……お前の身体中くまなく経文を書いたに――耳だけが残っていた! そこへ経文を書く事は納所に任したのだ。ところで納所が相違なくそれを書いたか、それを確かめておかなかったのは、じゅうじゅう私が悪るかった!……いや、どうもそれはもう致し方のない事だ――出来るだけ早く、その傷を治なおすより仕方がない……芳一、まア喜べ!――危険は今まったく済んだ。もう二度とあんな来客に煩わされる事はない』


深切な医者の助けで、芳一の怪我はほどなく治った。この不思議な事件の話は諸方に広がり、たちまち芳一は有名になった。貴い人々が大勢赤間ヶ関に行って、芳一の吟誦を聞いた。そして芳一は多額の金員を贈り物に貰った――それで芳一は金持ちになった……しかしこの事件のあった時から、この男は耳無芳一という呼び名ばかりで知られていた。

なぜならば、イヤホンだけによる立体音響(いわゆる ASMR など)が可能であることからも窺えるように、耳介を切除すると音源定位は低下こそすれ完全に失われることはなく、中耳と内耳に損傷がなければ失聴はしないからである。

4.5: 様々な知覚実験方法と信号検出理論

練習問題 1

略。

練習問題 2

前者の「実際にはミサイルが来ているのに、ミサイルが来ていない」と判断してしまう失敗は実際に被害を引き起こすが、後者の「実際にはミサイルが来ていないのに、ミサイルが来ている」と判断してしまう失敗は被害こそ引き起こさないが対処するためのコストを無駄にすることになる。古典的な統計的仮説検定の術語を使えば、前者は「第二種過誤(偽陰性)」に、後者は「第一種過誤(偽陽性)」に対応する。

練習問題 3

略。

練習問題 4

略。

練習問題 5

略。

4.6: 知覚バイアス

練習問題 1

ギャノン効果の観点からは、ask の場合は task は存在するが dask は存在しないので [t] と知覚される確率が上がると考えられる。ash の場合は tashdash も実在する語であり、実際の発話のデータベースを調べてみると、dash の方が tash よりも多く使われているので、[d] と知覚される確率が上がると考えられる。

日本語を使ってギャノン効果を検証するためには、[p] から [b] への連続体を作り、「あーてぃー」と「あんこう」の前に置けば良い。日本国語大辞典 第二版によれば、「ぱーてぃー」は party が存在し「ばーてぃー」は存在せず、「ぱんこう」は存在せず「ばんこう」は「万口・万巧・万幸・万紅・万考・万行・晩更・番公・盤香・蛮荒・蛮行」が存在する。前者の実験で [p] と、後者の実験で [b] と知覚される確率が統計的に有意に高ければ、日本語におけるギャノン効果が肯定的に検証されたことになる。

練習問題 2

図 4.6-1 の「[k]」を「[l]」に、「[g]」を「[r]」に、「ift の前」を「[t] の後」に、「iss の前」を「[s] の後」に置き換えれば所望のグラフが得られる。

練習問題 3

略。

4.7: 知覚と正規化

練習問題 1

[s] と [ʃ] の調音点を比べると、[ʃ] の方が [s] より後ろにある。よって、聴者は [t] か [k] か分からない音を聞いた場合、[s] の後で発音された子音は [s] との調音結合との影響で、より前で発音されていると考える。つまり、調音結合の影響を逆算し、「[s] の影響で前に出ているのだから、本来は口腔のもっと後ろで発音されていたに違いない」と考えるということである。その結果、[t] よりも [k] の方が調音点が後ろなので、[k] と知覚する確率が高くなる。議論を逆転させれば [ʃ] の後ろでは [t] と知覚する確率が高くなることが分かるので、[k] と知覚する確率が高くなるのは [s] の方である。

練習問題 2

知覚の正規化だけが音声知覚の主要な要因であったとすれば、fooliS の後でも ChristmaS の後でも [t] と [k] の知覚される確率は全く同じであるべきだが、実際には両者の間に有意な差があるので、ギャノン効果のような語彙的要因も音声知覚に関わっているのだということが言える。

4.8: 多感覚知覚

練習問題 1

mil が小さなテーブル、mal が大きなテーブルを指す。これは [ɪ] では口腔の開きが小さく、[æ] では口腔の開きが大きいことに起因する。この現象は Sapir, E. (1929). A study in phonetic symbolism. Journal of Experimental Psychology, 12(3), 225–239. https://doi.org/10.1037/h0070931 で初めて提唱された。

練習問題 2

ワマナの方がサタカよりも優しいという印象を受ける。これは [w, m, n] が共鳴音であり、[s, t, k] が阻害音であることに起因する。この実験は篠原和子・川原繁人. (2013). 音象徴からみる言葉の身体性. 人工知能学会全国大会論文集, 27, 3G3-OS-12a-3. https://doi.org/10.11517/pjsai.JSAI2013.0_3G3OS12a3 で行われた。