言語学オリンピックへの誘い:ルール・遊び方・勉強法

概要

本記事は、私の中高時代の部活の合宿で行った「言語学オリンピックへの誘い」という講義の原稿です。言語学オリンピックについてまったく知らない中学生に話すことを想定しているので、学術的正しさを少し犠牲にして分かりやすさを優先した箇所もあります。何卒ご寛恕ください。

ここでの主張は、基本的に次の二点です。

  1. 言語学オリンピックとは、記述言語学の一研究段階を模した問題を解く大会であり、翻訳よりも記述のほうが重要だと考えられている。
  2. 言語学オリンピックは、規則のパラドックスゆえに知能だけでは解答することができず、言語学上の「自然さ」という観点があって初めて成立する競技である。

本記事を公開する前に宮川創先生(国立国語研究所テニュアトラック助教)、id:nuc さん(小田啓太先生)、id:fulfom さん、岡本沙紀理事、id:fuma_maple さん、梶田純之介先輩による貴重なご意見・ご感想を頂きました。文責は私のみにありますが、この場を借りて皆様に心より感謝申し上げます。

自己紹介

みなさん、こんにちは。はじめましての人が多いかと思いますが、おひさしぶりの人はおひさしぶりです。

まず、この合宿が数年ぶりに開催されたということに、改めて感動と感謝の念を表したいです。そういえば、ちょうど数日前に 2022 年度の JMO 夏季セミナーも数年ぶりに無事成功したと聞いて、私としては完全に他人事なのですが嬉しく思いました。

さて、現執行代の皆様にありがたくお呼びいただいて講義を頼まれたときに、

  1. Grothendieck 群入門 〜Re:ゼロから始まる整数生活〜(cf. 小田文仁「グロタンディーク群について - 自然数から整数をつくる」)
  2. 星裕一郎「乗法的情報による加法構造の復元」の中高生版
  3. 系統学の数理(Basic Phylogenetic Combinatorics の中高生版)
  4. 計算論的精神医学と自由エネルギー原理

あたりを考えていたのですが、冷静に考えると(当時の自分が不勉強だっただけかもしれませんが)中学一年生ってまだ微分とかがおぼつかないですよね。まあ、2017 年の合宿では某先輩が「中学生は微分とか知らないかもしれないけど、極限を $\varepsilon-\delta$ 論法で定義してから始めれば大丈夫ですよね!」と満面の笑みで深谷賢治『解析力学と微分形式』の第 1 章の内容を全部紹介したんですけど……。ともかく、その観点からは 4 を真っ先に除外すべきだと考えて、しばらく 1 と 2 と 3 で迷っていました。

ところが、私は国際言語学オリンピック日本委員会というところで色々なことをやっている人間なので、ここにいる後輩たちに宣伝をするのが最も適切なのではないかという発想に至りました。そして何よりも、私がかつて岡本先輩から教わったように、言オリの「ルールと遊び方」を教えたいという切実な願いがあるわけです。この一時間半ちょっとの時間は、それを伝えるのに充分であろうと思っています。

ちなみに、JOL2023 の受験案内はそろそろ公開されると思いますが、例年通りであれば 12/15 が募集締め切りで 12/29 が JOL2023 のはずです。ぜひ皆さんご参加ください。卒業生もオープン枠で出場できるので、よかったらちょっと出てみてください。

iolingjapan.org

ルール

言語学オリンピックのルールを説明するために、最も簡単な例から始めることにします。

JOLsample-1 インドネシア語

以下はインドネシア語の単語とその日本語訳です.

インドネシア語 日本語訳
jalan
berjalan 歩く
berkeringat 汗をかく
keringatan 汗びっしょり
nafas
duri とげ
  1. keringat を日本語に訳してください.
  2. 「息をする」「とげまみれ」をそれぞれインドネシア語に訳してください.

問題を解く時間は特に取らなくてもよいでしょう。〔何人かを当てて答えさせる〕

  1. bernafas, durian

なぜこのような答えになるのでしょうか。〔何人かを当てて答えさせる〕

  1. ber- をつけると動詞になり、
  2. -an をつけると「~だらけ」という意味になる

という規則があるからです。

しかし、もし規則 2 に「母音の後ろにつくときには -n になる」という条件があったら durin になり、「母音の後ろにつくときにはその母音を消す」という条件があったら duran になります。あるいは duri だけ不規則変化をして duren とかになっても、あるいは全然違う fajan とかになってもいい。これは極めて重要で根源的な屁理屈です。

「かくかくの場合にはしかじかしなければならない」という形で、行為の仕方を一般的に定めているものを、広く〈規則〉と呼ぶ。道徳、法律、エチケット、スポーツやゲームのルール、日本語の文法や語法、足し算のやりかた、さまざまな公理系—こうしたすべてのものが規則である……規則とは、法則と異なり、それを知ることによって意図的に従ったり従わなかったりできるものだ……

S. A. クリプキは、ウィトゲンシュタインの議論をもとに、規則に従うことに関するパラドックスを提示した。我々は規則を有限の事例の提示によって教えられる。しかし、有限の事例から読み取りうる規則は一意的には決まらない。したがって、通常とは異なる規則を読み取る可能性は常にある。

岩波書店『岩波哲学・思想事典』「規則」

したがって、言語学オリンピックは素朴に考えればすべての文字列が正答となる問題しか出されていないように考えられますが、実際のルールでは絶対に durian しか正解になりません。それでは、この「実際のルール」とは一体何なのか、というのがここで考察すべき極めて重要な問題になってきます。それを考える上で非常に示唆的な解説が、2020 年 2 月 9 日に開かれた第 1 回 APLO 対策ワークショップの冒頭に与えられています。

言語学という学問の目的は「言語のしくみを解明すること」で「言語を翻訳すること」ではない。なので言語学オリンピックの出題者は「言語のしくみを解明すること」ができたかを問いたい。最も手っ取り早く確実な出題の仕方は言語研究で行われているように言語のしくみを書いてもらうことだ。こうして自由記述が出題されていると思われる。しかし自由記述だけではその言語の面白いところが伝わりにくかったり難易度の調整が難しかったりする。なので翻訳課題も出ると思われる。たいてい翻訳課題は自由記述で書いてほしいことを暗示してもいる。

国際言語学オリンピック日本委員会「記述対策ワークショップ」

つまり、durian とか duran とか durin とかを答えさせることによって、採点者側は「訳文そのもの」ではなく「訳文の背後にある規則」を見ようとしているのです。翻訳が正しいか否かというのは、実はこのゲームでは(作問者にとってはともかく)解答者と採点者にとっては割とどうでもよいのです。

国際言語学オリンピック委員会「IOL 選手向けルール及びガイドライン」を見てみると、そのことがよく理解できます。

  • 答案には必ずその解答を裏付ける説明が必要です(問題に指示が明記されている場合を除く)。どれだけ解答が正しくても説明がなければ点数は低くつけられます。
  • この説明は解明した事実を詳しく体系的にまとめたものであって、その事実をどう解明したかという説明ではありません。(設問に対して)どれか1つが当たればといくつも解答を書いてはいけません(もちろん複数の解答を要求する問題は除く)。解答を複数書いた場合、もしその中に正解があっても無得点になります。矛盾する説明を書いた場合も失点になります。答案に含めたくないものは消すか上から線を引いて削除してください。

このゲームでは翻訳ではなく記述を重視するというのがルールであり、記述が出しにくいときに翻訳を出題することで代用しているのです。

それでは、二つの異なる記述があって、どちらも与えられたデータを網羅的に矛盾なく説明したとしましょう。どこまでを正解にして、どこまでを部分点にして、どこからを不正解とみなすのかは採点上のテクニックにすぎないので、ここでは「どちらが優れた記述なのか?」という問いに応答してみようと思います。

言語学オリンピックで扱う言語は基本的に自然言語です。自然言語は Homo sapiens という種にほぼ特異的に見られる自然現象であり、そこには必ずこの宇宙の物理法則に由来する生物学的・神経科学的な制約があるので、言語一般には認められないが自然言語には認められるような法則性を有しているはずです。そして、その法則は比較的シンプルな原理に由来しているはずなのですが、それらを言語化して列挙することは今のところ不可能です。しかし、その結果として現れた自然言語全体に見られる法則性を知ること(言語類型論を勉強すること)によって、言語分析における「自然さ」のような尺度を掴むことが可能だと考えることはできそうです。

しかし言オリを解く人や記述言語学者は未知なる言語に相対したとき, 仮説を立てたり記述結果を受け止めたり説明をしたりする段階では他言語の研究で用いられてきた概念や言語類型論の知識をフル動員させます。さらに記述が終わった後も当該言語の特徴をつかむために自分の知っている他の言語と対照したり類型論的な位置づけを考えたり, あるときには類型論研究が導き出した(または言オリを解く人なら自分が考えていた)言語の普遍性に対して反例を出したり支持する結果だと述べたりします。このように記述をするにあたっても類型論を始めとする記述以外の分野と支え合うと深いことができます(逆に類型論的バックグラウンドのない記述は見るべきところを見れていなかったり, 言語のしくみを正しく言葉にはしているけれど変な一般化をしてしまっていたりします)。

したがって、「どちらが優れた記述なのか?」という問いに対しては「言語学的に(言語類型論的に)自然な方が優れている」と返すのが素朴な回答になります。しかし、これではあまりにも抽象的すぎるので、いくつかの具体的な例を挙げましょう。

  1. 対象の言語現象を説明する規則の量や、世界に存在する規則の量を最小化するとよい。これはチョムスキーの言うミニマリスト・プログラム的かもしれません。
  2. 規則が音声学的・認知科学的基盤に基づいているとよい。たとえば、音韻的に同じ扱われ方をする音素群が特定の音声特徴を共有していたり、不規則な変化をする語は出現頻度が高かったりすることなど。

たとえば 1 については、ニコラス・エヴァンズ「記述されていない言語の文法を書くには」にも次のような説明があります。

例えば、音韻論の宿題を提出すると、それに点数がつけられます。ある言語現象に対して生徒Aは3つの規則を書き、生徒Bは2つの規則を書きますが、Bの方がエレガントとみなされて高い点数をとります。この種の課題をおこなう訓練を初めから受けるのです。(p. 4)

しかし、これも十把一絡げに言える話ではありません。だいたい、数学でも「自然さ」の正体を突き詰めていっただけで Eilenberg と Mac Lane によって圏論という一大分野が生まれましたよね。線形代数を知っている部員もいると思うので付言しておくと、彼らは 1945 年に圏の定義を初めて論文で発表しました (General theory of natural equivalences) が、その冒頭は「有限次元ベクトル空間 $V$ に対して、同型 $V\cong V ^ {\ast}$ は自然でないが、同型 $V\cong V ^ {\ast\ast}$ は自然である」という話で始まります。ちなみに、数学の場合は他にも canonical(正準的な)という同じような語もありますが、standard(標準的な)は両者ともかなり異なる語です。標準基底は standard basis であって、canonical/natural basis ではないですよね(後者で呼ぶ人もいるらしいですが……)。

要は、言語学オリンピックも科学オリンピックの一つなのです。自然界のデータが与えられていて、仮説を立てて、予測をして、採点者がそれを検証するという一連の過程は、まさに自然科学でしょう。

遊び方

ルール説明はもう充分だと思うので、遊び方を説明します。ここで、一部では「(記述)言語学オリンピック」とも言われるほどに言語学オリンピックと関係の深い「記述言語学」という分野について、『言語学大辞典』の説明を抜粋します。

広義には、ソシュールを初めとするヨーロッパの構造言語学の各学派も含められるが、このような言語学が記録をほとんど持たないアメリカインディアン諸語の研究に活躍の場を見いだしたのは偶然ではなく、アメリカでの発展の結果、現在では記述言語学は「アメリカ構造言語学 (American structural linguistics)」とほぼ同義語として用いられている。……まったく未知の構造を持つ言語を記述する場合、音素・形態素などの言語単位を設定するためには形式的な規準が不可欠である。アメリカ構造言語学がその規準として重視するのは、ある単位が他の単位との関係において示す相対的な位置、すなわち分布 (distribution) である。

前半の歴史はいいとして、後半の規準は何を言っているのかわからないと思いますから、今までの JOL 史上で最も解く価値のある良問だと私が確信している JOL2018-3 を題材に説明することにします。〔グリースン『記述言語学』の第6章「形態素の認定」と第7章「異形態から形態素への分類」の内容を踏まえつつ、自由かつ丁寧に議論する〕

kotohazi.netlify.app

勉強法

言語学オリンピックは勉強法がまだ微妙に確立していないところがあるのですが、お分かりの通り結局は記述言語学をベースに出題するしかないので、知識自体は他の科学オリンピックに比べれば圧倒的に少なく済みます。

もし「教科書」を求めるのであれば、もちろん先に紹介したグリースン『記述言語学』が唯一の和書ではあるのですが、東京大学大学院人文社会系研究科の言語学研究室が出しているガイダンス資料の「言語学を学ぶ参考情報 (2/2)」(p. 19)に「言語分析」の資料として挙げられている

  1. Payne, Thomas Edward. 2006. Exploring language structure: A student’s guide. Cambridge: Cambridge University Press.
  2. Payne, Thomas Edward. 1997. Describing morphosyntax: A guide for field linguists. Cambridge: Cambridge University Press.

をこの順番で読むのがいいと思います。残念ながらまだ邦訳が出ていないのですが、英語の勉強になるのは確かなので、時間が無限にある中学生や高校一年生が集まって輪読会を開くとかするのはよさそうな気がします。リンゼイ類型論は、まあ、言オリの「教科書」ではないですね。


追記(2023年9月22日):この書籍は「ことはじ」でも次のように取り上げられています。

言語学オリンピック風の問題というのは,実は言語の構造分析の練習問題として大学の授業でも使われています.たとえば Thomas E. Payne の Exploring Language Structure: a Student’s Guide には多くの言語学パズルが載っています.特に61ページの Excercise 2.13 Orkhono-Yeniseyan なんかがそっくりです.

言語学オリンピックは(構造主義的な記述)言語学のことを知るのにとっても有効ですが,そこの繋がりが注目されていないと感じます.このサイトが言語学オリンピックから言語学へ,また言語学から言語学パズルへの橋渡し的な存在になればと思います.


なぜ東大の言語学研究室のガイダンス資料に言語学オリンピックの教科書たりうる文献が紹介されているのかは、先ほど紹介した JOL2018-3 と、たとえば 2019 年度の大学院博士課程の入試問題を比べていただけるとよく理解できると思います。言語学オリンピックの問題は、大学院入試で出題される言語分析の問題と非常によく似ています。

all-for-nothing.com

ただ、私は独学は(可能な限り)回避すべきだと考えているので、東京の近くに住んでいる人はぜひ岡本沙紀理事が教鞭を執る K 会の「言語学オリンピックで入門する言語学」に参加することをご検討していただけると幸いです(リンクは冬期のものを貼っていますが夏期にも開講しています)。私は 2019 年 12 月の一番最初の講座に参加して、それまでは言オリの根強いアンチだったので全く何も勉強したことがなかったのですが、五日間ほど没頭しただけで金賞が獲れました。COVID-19 で国際大会は消えましたが、この講座のおかげでゲームのルールと遊び方がわかってアンチを脱してファンになることができたので、非常に良い経験になりました。

おまけ

〔時間が余ったときの暇つぶし用〕

  1. 比較言語学:JOL2020-2 エウェンキ語,オロチ語,ナーナイ語 | ことはじ〔[18] は言語学の知識がないと絶対に解けない〕
  2. mRNA:IOL2010-4 mRNAシークエンシング | ことはじ