FC2ブログ

老人と子供のポルカ

 Mb Mr.Moto の連名だ。

 

 所長が、日本語処理関係の文献を書こうとして沈思黙考していたときに、なんとなく鬱憤が溜まっていたのが うちらである。いや、所長氏や Maria 氏ほど人間ができていないので。

 

 小学校では、国語の授業で「主語」「述語」という概念を教えられて、それがテストに出て成績に反映される。つまり、強制力があるわけだ。

 とはいえ、「主語」も「述語」も、しばしば省略される。たとえば前者は命令文や日記文では省略されるし、述語に関しては、そもそも文末にある助動詞の「だ」「です」「である」は省略されることが多いので、現代文においては「連体形は終止形と同じ形をしている」とかいったことが学校で教えられているわけだ。

 

 それは違うだろう。それは、「パワー・ハラスメント」とか「教育虐待」とか呼ぶべし、と思う。

 

 それを考えると、教師も教師だ。「だって教科書にそう書いてあるんだから」という話はあるだろうが、保護者が教師用の指導書を見る機会は めったにないので、「そういう教え方をしろ」と強制されていることは知らない。

 

 恩師である佐貫 亦男先生に教わったアネクドート(政治小咄)だが、「『勤勉である』『智的である』『ナチである』という徳性をすべて備えることはできない。勤勉で智的な人物はナチではなく、勤勉なナチは智的ではなく、智的なナチは勤勉ではない」というのがあった。学校というのは、アイヒマンのような「智的ではなく、勤勉なナチの育成所」なのかという話になる。

 

 小学校・中学校・高等学校の教師は、基本的に社会経験がない。「学校」という特殊な環境しか知らない。それが、将来は「社会に出る」という児童・生徒を本当に教えられるのか?という疑問はあると思う。

 

 「主語と述語」の関係について、ちゃんと説明できない国語教師は、正直クズだと思う。算数は、将来的には十露盤やコンピュータ教育につながってゆく重要な科目だが、遠山 啓先生が提唱した水道方式や、図形(四辺形)における束構造を理解していない。

 じっさい、「正方形は長方形ではない」とか「菱形は平行四辺形ではない」とか「平行四辺形は台形ではない」とか「長方形は台形ではない」とかいってキレる教師を見たことがある。

 

 読解や作文の能力は生活上重要だが、そこには「国文法」という裏付けがある。五次以上の整次方程式は解析的に解けないが、実用上の解の範囲の見当がついていれば、数値計算で近似解は求めることができる。

 

 ところが、国語教師の大部分は、「国文法」を毛嫌いしていて、数学教師の大部分は「計算数学」というものを毛嫌いしている。体感的にいうと、あれは「精神異常者」と呼んでいいと思う。実害を被(こうむ)ったことがあるからだ。

 

 所長氏も、よく我慢しているな、と思う。

 

 正直な話、「一段活用」とか「五段活用」とかいった言葉は、パーソナル・コンピュータの登場以前であれば、「常識的な判断」で間に合っていたのだ。線形代数とか解析学とかも、「そのあたりはプロを信用しよう」で済んだ話だった。

 

 それが、「コンピュータ」が神格化されて以降の時代に、おかしくなった。当時はクリーンルームで白衣を着たオペレータが操作していた時代だ。

 

 ところが、マイクロプロセッサの登場で、「マイコン(マイクロ・プロセッサを使ったコンピュータ。「自分がオーナーであるコンピュータ」なので「マイ・コンピュータ」という意味もある)」「オフコン(オフィス・コンピュータ)」の時代を経て、「パソコン(パーソナル・コンピュータ)」の時代になると、「コンピュータの権威性」みたいなものがグラついてきた。

 

 うちらプログラマ(つーか、ハッカー)は、「権威性」なんていうものとは無縁であったのだが、「プログラムが書ける」というだけで、なんかしら囲いこみの対象になってしまったのである。

 

 それが不景気(バブル景気崩壊後の、「失われた二十年」だ)で廃棄されて、景気が回復したら「IT 業界における人材不足」とか言い出している。

 

 問題は、経営者の性根(メンタリティ)が、バブル期の頃と変わっていないことだ。

 

 これではソフトウェア業界が豊かになるわけがない。

 

 「老人と若者に対するメッセージ」というのは、どうだろう。

 

スポンサーサイト



語と語彙と辞書

 無駄に日本語処理の解析精度を上げたあげく、しなくてもいい苦労をしてきたという苦い経験があるので、ここいらでちょっと整理をしておこうと思う。

 

 「基礎語彙」と「基本語彙」と「百科語」だ。

 

 「基礎語彙」というのは、「しょっちゅう出てきて、不規則だったり口語的に崩れていたりする語彙」だ。これはだいたい語彙数にして千五百くらいはあると思う。不規則活用動詞の活用形は、それぞれの活用形が「語」で、ワンセットで「語彙」になる。「I」「my」「me」「mine」は、語とては異なっているが、語彙としては同一だ。

 こういった例は、「データで網羅する」というのが常識だ。ただ、名詞に関していうと、ちょっと規則では押さえこみづらいものもあるので、名詞も含めると数千語まで膨らむかもしれない。

 

 「基本語彙」というのは、「だいたいの人が知っている語彙」だ。これはアルゴリズムとデータの両方で押さえこむ必要がある。これが「なんとか実用になる」ということで少なめに見積もると一万五千語、「普通に実用になる」レベルだと三万~五万語、もうちょっと欲張ると八万語くらい、というのが目安になっている。「普通の人で五万五千語くらい」という話もある。

 

 この上の「百科語」は、「その道の専門家なら知っているけれど、普通の人は知らなくても仕方がない語」だ。たとえば、「地名の専門家や姓の専門家だったら知っているけれど、普通の人は知らない」みたいなのが百科語だ。「人里」というバス停があるが、これを「へんぼり」と読めるひとは珍しいだろうし、「小鳥遊」を「たかなし」と読める人も少ないだろう。と、いうわけで、「専門語辞書」に登録しておけばいい、というのが百科語だ。とはいえ、「知人の小鳥遊七五三太(たかなし・しめた)さんが人里に住んでいるのだ」という人もいるかもしれないので、「頻出語彙辞書」にコピーしておくくらいのことはしておいてもいいと思う。

 

 そうなると、「ある普通の人がしょっちゅう使う語彙」というのは、その人が使う範囲に限れば基礎語彙と基本語彙の辞書を合わせて二万語以下の語彙数で問題なくカバーできてしまう、ということになる。

 

 昔の16 ビットコンピュータ(ハードディスクなし)だと、メインメモリが 384 キロバイトとかいう話だったから容量不足だったけれど、現在のパーソナル・コンピュータ(ハードディスク内蔵で仮想記憶あり)だと普通にギガバイト単位のメモリを積んでいるので、このくらいなら余裕で主記憶領域に置ける。

 

 そんなわけで、「百科語」のほうは辞書のメンテナンスが面倒臭いから専門家に任せるとして、この「基礎語彙」と「基本語彙」および「個人的に使っている語彙(このあたりは人それぞれだし、地域にもよる)」を、「ふだん読んだり書いたりしている文章の中からどうやって抽出し利用するか」ということを考える。

 

 このとき、抽出の対象となるテキストは、英語だろうが韓国語だろうがアッカド語だろうが関係はない。要は符号化されてデータになっているテキストのなかから、(日本語を知っているユーザに理解できるような)情報を抽出できるかどうか、という話だ。

 

 こういうときに、英語やドイツ語だと面倒が少ない。単語が空白(および、カンマ・ピリオド・改行など)で区切られているからだ。

 ところが、日本語の場合は膠着やら屈折やらがあって、なかなかに難しい。

 「漢字やカタカナから漢字・カタカナに変わる部分で切れば、ほぼ文節で切れる」というのは長尾 真先生が仰っていたことだが、ここに「お」とか「ご」が入りこんでくると面倒臭い話になる。

 

 つまり、「日本語処理」というのは、「ふだん我々が(プライベートであり口話的に)使っている語彙」を、「脱色」しないと「日本語処理」の俎上には載せにくい、という事情があった。

 

 やまとことばは「お」。漢語・外来語は「ご」という「常識」があるわけですが、もちろん例外はあるわけだ。けれど、その「例外」というのは、「頻出し、しかも数が少ない」(「Zipf の法則」とか「20:80 の法則」とか)という特性があるので、「言語規則(すなわち、「文法」)」を備えたシステムによって「淘(よな)げる」ことで、日本語のテキストは「記号処理としての日本語処理」の俎上に載る。

 

 昨今の「日本語処理」は、「瓢箪鯰(ひょうたんなまず)」とか「杓子定規(杓子定規)」とかいった、「もともと無理筋のアプローチによって日本語を押さえこもうとした」からこそ失敗して、「人工知能」「深層学習(ディープ・ラーニング)」のほうに行っちゃったのだろうと思う。「溺れる者は藁をも掴む」のは分るが、行きつくところは「泥鰌の地獄鍋」だ。

 

 まず、「テキストから、『頻出する』語を抽出して、基礎語彙として整理する」ところから始めるのが、日本語の入口だ。

 

 「まず、辞書を作るところから始める」というアプローチも、あるかもしれない。

 

言葉の整理

 「故事」と「諺(ことわざ)」とはどう違うか。

 「俚諺」は「諺」とはどう違うか。「洒落」と「地口」はどう違い、「故事成句」と「成句」は同じものなのか。

 たとえば、「会稽の恥を雪ぐ」「臥薪嘗胆」は「故事」あるいは「故事成句」だろう。「桃園の誓い」「三顧の礼」「髀肉の嘆」もそうだ。もちろん、実話かどうかは知らないが。

 「親の意見と茄子の花は、千に一つの無駄もない」「亀の甲より歳の功」あたりは「諺」だろう。

 「残り物には福がある」は、もともとは「甘い物には福がある」だったのが、「餘り物には福がある」⇒「残り物には福がある」と転じたらしい。「感謝感激雨霰(かんしゃかんげきあめあられ)」は「乱射乱撃雨霰(らんしゃらんげきあめあられ)」に引っ掛けた「洒落」あるいは「地口」であるらしい。「ああ言えばこう言う」から「ああ言えば上祐」はどうだろう。

 「成句」あるいは「言い習わし」はもうちょっと軽い感じがする。「縁は異なもの」は「縁は異なもの味なもの」とか、「噂をすれば影」は「噂をすれば影が射す」、「毒を食らわば皿まで」は「毒を食らわば皿まで舐(ねぶ)れ」の略なので、「諺」と言えるかどうか。

 「目には目を、歯には歯を」はハンムラビ法典だが、あれは報復をエスカレートさせないための法律なので、「倍返しだ!」とかいうのはいかがなものか、という話になる。「恨みは水に流せ。恩は石に刻め」という俚諺があるが、「水に流す」だけが人口に膾炙している。

 そういえば、「豚に真珠」は、「豚に真珠を投げ与えてはならない。彼らは怒って噛みついてくるだろう」なのだそうで、「猫に小判」よりもヒドい話だ。

 「夏炉冬扇」とはいうけれど、「貰い物なら夏の小袖」という言葉がある。このあたりは故事ではないから成句に分類できそうに思う。

 「来年の事をいうと鬼が嗤う」というのは、「点鬼簿(てんきぼ)」(別名を「閻魔帳(えんまちょう)」という)と関連していそうで、「人間はいつ死ぬかわからない」ということの例えだ。「親の死に目に会えない」も、「逆縁の不孝」と対を成しているとおもわれる。「親より先に死ぬのは、いちばんの親不孝だ」という常識があって、大西 瀧治郎が「統率の外道(げどう)」と言ったのもむべなるかな、と思う。将たるもの、兵卒を一人でも多く親御さんのところへ送り帰すことが重要であって、「一将功なりて万骨枯る」というのは幻想でしかない。

 

 「だけど、昔の人がそう言ってたから」「昔から、そう言われていたんだから」「みんな、そう思っているんだから」「そういうものなんだから」。

 

 こういった、粗雑な言論が横行しているというのは、国語屋としては「憂うべき」状況であり、正直な話、「今すぐ行って、徹底的にシメてくる」くらいの気分です。ただ、警察沙汰になるのも不本意だし、加減が解らなくて死なれたり不具になられても不本意なのでやりませんが。

 ついでながら、私も「不具者(最近は「障がい者」とか呼ぶのがトレンディだそうですね)」

 

 「盲、蛇に怖じず」「群盲、象を撫でる」みたいな言葉は、MS IME では変換できません。「盲板」もだめでした。「つんぼ桟敷」ももちろんダメで、「びっこをひく」は「美っこを引く」に変換されました。

 

 「かな漢字変換システム」に、いちいちポリティカル・コレクトネスに関して検閲されたくありませんよね? で、いちいち「変換精度を上げるために、データを送信してください」みたいなことを言われて不愉快になるな、というのは傲慢を通り越して思想教育あるいは洗脳ですよね?

 

 「めっかち」は、「一方の目の視力が不自由な人」と言い換えなければいけないとすれば、伊達政宗や服部半蔵や丹下左膳や森の石松は「一方の目の視力が不自由な人」といちいち断って、「視覚障がい者に配慮しています! 配慮しています!」と言わなきゃならないんですか?

 

 うちらは、自閉です。妥協案として「自閉スペクトラム」は容認していますが、「自閉」に関する差別は、あります。「理系」や「プログラマ」に対する差別もけっこうキツいですが。

 で、「精神分裂症」と「統合失調症」と言い換えても、「わたしは差別なんかしていませんよ」というエクスキューズには、まったくならないんですよ。

 

 「一度決まったことは、絶対に変えられない」と言っていた魚類学会が、正式和名「イザリウオ」に「カエルアンコウ」に変更しました。いざって歩くんだからイザリウオでいいじゃないか、と思います。それを言ったら、「チカメキントキ」や「メクラウナギ」はいかがなものかと思います(「チョウセンメクラチビトビムシ」という 正式和名もあります。魚類ではありませんが)。それより、「ホオジロザメ」⇒「オオシロザメ」、「ホンソメワケベラ」⇒「ホソソメワケベラ」、「ニセゴイシウツボ」⇒「ゴイシウツボ」にしてほしい。だけど、「一度決まったことは、絶対に変えられない。混乱を招くから」とかいった話があります。

 

 才能のある「ちゃんとした研究者」の方々は、基本的に「素人に優しい」んですよ。ところが、自分の才能に自信のない方は、「政治」で人の上に立とうと思ってしまう。真面目に研究をしている人は、自分の研究テーマに集中していて、学生や後進の研究者の育成に興味が向いている。

 で、その間に着々と政治工作をしている。そういう人々は、「ポリティカル・コレクトネス」を前面に押し立てて、言葉狩り・言論狩り・言論封殺をするわけですよ。

 

 まず、言葉の定義から、見直さないと議論になりません。都市文化というのは、そういうものです。

 

まとめ

 残る話題は「構文解析」と「人工知能(深層学習とかではなくて知識ベース)」という話はしたわけだが、まず「構文解析」というと、形容詞と動詞が要求する文法格についてのデータがないと困る。「チョムスキーがいうような、 CG なんていう縛りはねぇんだよ!」というヒスを起こすヒトはいるわけだが。ちなみに、「ヒス」というのは(扉などが)「キーキー音を発する」という意味であって、ヒポクラテスが言うところの「ヒステリー」とは関係がない。

 

 で、私は人工知能というものに批判的だ。「占い」とかなら「そんなものか」と思うけれど、人工知能と云うのは、現時点では補助(アシスト)の水準であって、「最終的な判断は人間が下す」ということになっている。「人工知能」は、「とりあえず、人間が判断するためのデータを抽出して提示するだけでいい」という意味で、一九七十年代の人工知能は、むしろ「パターン認識」に近かったように思う。

 

 そんなわけで、うちらは「シンギュラリティ」とか言われても、「ふぅーん、そうですか」程度の感慨しかない。それは、「自分の作った日本語の形態素解析システムの解析精度が、開発者のレベルを超えている」というのを思い知って納得せざるを得なかった。

 

 「花街」は「かがい」であって「はなまち」ではない。「独壇場(どくだんじょう)」は誤で、正しくは「独擅場(どくせんじょう)」だ。

 

 日本語の変格活用は「カ変(「来る」)」と「ラ変(「する」)」だと教わったけれども、「言う」「行く」が変格活用だというのに気づいたときに、誰も聞いてくれなくて虐(いじ)められた。中学生の頃だ。

 で、長じてプログラマになって日本語処理の分野に踏みこんだら、「請(こ)う」「問(と)う」が変格活用(というか、文語の活用を遺している活用型)だということを明らかにした。

 

 そこで思ったのが、小中学校の教師の理解は「浅い」ということだ。さらに、哺育器のような安全な浅瀬でチャプチャプやっていて、向上心というものが感じられない。

 

 「熱気」が感じられない。まだしも昔の日教組のほうが熱意があったように思う。

 

 いまどきの教師は、「ムキー!ムキー! ピー!ピー!ピー! わかんないわかんないわかんなぁ~い!! アーアーアーアーアーアー聞こえない聞こえない聞こえない」というのが多いらしい(うん。現役の生徒から、「マトモに付合ってると気が狂う」という話を聞いている。ドコ中の誰とかいうのは、さすがに言わないけどね)。昨今は中学生でもスマホを持っているので、ダメ教師の淘汰圧は高まっていると思うけどね。

 

 「言葉の乱れは心の乱れ」という言葉があった。まず、「ピタゴラスの定理」という言葉を使うことをやめよう。さらに、「三平方の定理」を「直角三角形における定理」と教えることもやめよう。

 「いわゆる『ユークリッド空間』において、長方形の縦横の長さと対角線の長さに関して得られた定理を、古代ギリシャ時代に整理した結果を『ピタゴラスの定理』と呼ぶ」ということを、ちゃんと理解してちゃんと教えるのが教師というものだ。

 

 「アルキメデスの原理」も、風呂から飛び出して「見つけた! 見つけた!(「ヘウレーカ! ヘウレーカ!」)と叫んで真っ裸で走った」とかいったエピソードが生徒にウケる、とかいった話ではなく、「パスカルの定理から、直接アルキメデスの原理を証明できるか?」とか、「そのときの姿勢安定性は?」とかいった、「ぶっちゃけ、工学的には、けっこう未解決な部分があって、正直よくわかんない」と生徒に言っちゃえる先生のほうが、教師には向いていると思う。

 

 「オレは何でも知っている」「オレが正義だ」みたいな教師は信じちゃダメだ。

 

 いや、本当にわかんないんだよねぇ。誰か助けてくんない?というので、「まきな」さんの開発に着手したという経緯があるわけですが。

 

文節と汎文法

 汎文法(CG:Common Grammer)という概念はノアム・チョムスキー(発音的には正確ではない。本来は「コムスキー」に近いらしい)が提唱したという。すなわち、「文法の雛形」にあたる祖型があって、そこからすべての言語が派生したという主張だ。

 

 ところが、「日経サイエンス」のバックナンバーを読みかえしたところ、反文法学説は昨今風当たりが強いらしい。私としては反文法学説を支持しているのだが。

 

 まず、「文の構成単位は述語である」という「述語主義」がある。数学者のルネ・トムはカタストロフィ理論の立場から「述語(verb)」のことを「原始文章」と呼んでいるのだが、これが(省略されて表現上現れないことも多いが)意味の上では現れ、しかも表現上の「しかるべき位置」に省略されているのがわかる、という特性がある。

 

 第二に、述語はそのタイプによって要求する文法格があり、すべてのタイプにおいて共通するのが「主語」という格(主格)がある。

 

 第三は、述語と格の関係は一意に決まる。「私はラーメンを餃子を喰う」は、あらゆる言語において誤であって、「私はラーメンと餃子を喰う」が正しい、ということになる。

 

 第四は、述語と「格を表す語」の修飾関係(係り受けの関係)は交差しない(非交差則)が成立する。

 

 日本語の場合は、第五の規則として「強調転置」というのがあるが、これは日本語だけの話ではない。「白い山」は英語では「ホワイト・マウンテン」で英語では「モン・ブラン」だったりする。「前から修飾する」「後ろから修飾する」は、「どこに強調の重点があるか」によって変わりうる。だから「長い鼻の」になったり「鼻が長い」になったりする。

 

 そんなわけで、CG の基本原則は 1~4 である、と謂えるはずだ。つまり「1~4の規約に従っていない表現は、非文(非文法的な業言)である」と見做していいことになる、

 

 CG の批判者は、単に「うまい対応関係を見つけられない」ことを「文法」のせいにしているだけなのではないか。このあたりは坂井 秀寿先生が『日本語の文法と論理』の中で指摘していらっしゃる。

 

 こうなると、「構文解析木の階層性」というのは、一九七十年代ごろの人工知能ブームの頃に云われていたような素朴な形と CG 的な解釈を組み合わせることで、意外に簡単に説明されてしまうように思う。

 この観点からいうと、現在の学校文法における「文節」の説明は、「最小の」という縛りをかけてしまったために、「構文解析木の階層性」をうまく説明できなくなっているように思う。

 

 そんなわけで、「文節の定義を変える」か「『文節』に変わる、階層性に対応した概念と名前を用意する」のが適切だと思う。

 

 「句」かなにかが適当なのかなぁ、と思うのだが。


 

プロフィール

Maria Bethany

Author:Maria Bethany
 コラボレーション集団『大森総合研究所』研究員、兼・広報担当。
 語彙論に興味を持つ。
 主な業績は、動詞活用における“指標音としてのハ行音の消失に伴う、四段活用ハ行動詞の五段活用ワ行動詞への移行”における母音ア・オ・ウ音の指標化の検証。

最新記事
最新コメント
最新トラックバック
月別アーカイブ
カテゴリ
検索フォーム
RSSリンクの表示
リンク
ブロとも申請フォーム

この人とブロともになる

QRコード
QR