言語研究:『WIRED Vol.19 ことばの未来』と『統辞構造論』
最近の言語処理の発達はすさまじく,統計的自然言語処理と機械学習を駆使して自動翻訳を可能にしている。Googleによる検索や翻訳なんかその成果の一つである。
先月出たWIRED誌の特集は「ことばの未来」だったが,こうした「統計モデル」による言語処理技術についてわかりやすく解説している。
「統計モデル」では,"This is a pen."という英文を,「代名詞 "this"」,「be動詞 "is"」,「不定冠詞 "a"」,「名詞 "pen"」というように分類してから解釈しようなどという丁寧な言語処理は行わない。
単純に言えば,"This is a pen."という言葉の羅列,これに対応する可能性が最も高い「これはペンです。」という文章を導出するモデル,それが「統計モデル」である。
WIRED VOL.19 (GQ JAPAN 2015年12月号増刊) /特集 ことばの未来 コンデナスト・ジャパン 2015-11-10 売り上げランキング : Amazonで詳しく見る by G-Tools |
Google翻訳にせよ,Siriにせよ,統計モデルを利用した翻訳や検索などは,現実に優れた成果を挙げている。
ただし,それは文章を単純に文字の組み合わせとみなし,その文字の組み合わせに対して,最も関連が深い(関連する確率が高い)と考えられる答えを導き出しているだけで,意味を解釈しているわけではない。
かつてノーム・チョムスキーは『統辞構造論』の中でこうした「統計モデル」を批判していたはずだった。
この本の中で,チョムスキーは人間が発話したり認識したりする能力は統計的近似に基づくものではないと述べていた。
統辞構造論 付『言語理論の論理構造』序論 (岩波文庫) ノーム・チョムスキー 福井 直樹 岩波書店 2014-01-17 売り上げランキング : 86519 Amazonで詳しく見る by G-Tools |
そう思ってWIRED誌を読んでみたら,やはり,今でもチョムスキーは「統計モデル」に対して懐疑的であるらしい。
「高度な統計分析をしようと試みる数多くの研究がある。…それらは言語の構造を一切考慮せずに,わたしに言わせれば,奇妙としかいいようのないやり方で成果をもたらす。…そこでは未分析のデータの近似値を求めることが成果と解釈される。・・・これは,かつてない新しいかたちの『成果』の概念であり,科学の歴史において,このようなものを私は知らない。」(WIRED Vol.19, p.50)
「統計モデル」は文章を理解せずに,ほぼ正しい回答を導く。
「わからないけどできる」,「理解できなくても,目的を達成できる」,そういうことでよいのだろうか,という疑問を持つ知識人は多いようだ。
| 固定リンク
「書籍・雑誌」カテゴリの記事
- 紀蔚然『台北プライベートアイ』を読む(2024.09.20)
- 『ワープする宇宙』|松岡正剛に導かれて読んだ本(2024.08.23)
- Azureの勉強をする本(2024.07.11)
- 『<学知史>から近現代を問い直す』所収の「オカルト史研究」を読む(2024.05.23)
- トマス・リード『人間の知的能力に関する試論』を読む(2024.05.22)
コメント
ネットショッピングでの「あなたにおすすめの商品はコレ」というやつですね。そう言われてみればそんな気もするけど、本当にそうだったかなぁなんて思ったり。
「ほぼ正しい答」の「ほぼ」が曲者なのではないでしょうか。まあこれを享受しておけよと言われているような感じ。チョムスキーは学者としてという以前に(いかにも彼らしく)自由を求める市民として「統計モデル」に反発しているように思えます。
投稿: 拾伍谷 | 2015.12.05 22:46
その通りです。自動翻訳も検索もネットショッピングのリコメンデーションも,いまや「統計モデル」に基づいて行われています。
「ほぼ」が曲者というのは同意です。統計モデルは有用ですが,あくまでも近似のものしか提供してくれません。
有用性は合理性とは別の物です。
投稿: fukunan | 2015.12.06 02:51