2019/10/28

driveの過去形はなぜdrivedではなくdroveなのか?あるいはデータ駆動科学の可能性について

「ジップの法則」というものをご存知だろうか?
英語圏において一般的に、theという単語は極めて頻度高く使用される。一方で、indisputable(議論の余地のない)という単語は殆ど使われていない。
1930年代、ハーバード大学の文学者ジョージ・キングズリー・ジップは言語を構成する単語の出現頻度についてについての疑問を持った。コンピュータの存在しない、ましてや書籍のデジタル化など一切想像できなかった当時、この疑問に対する解決方法はなさそうにも思えたが、ジェイムズ・ジョイスの連載小説「ユリシーズ」の公式ファンブックの索引ページを単語リストとして、単語ごとの出現回数をプロットしてみることにした。

出来上がったヒストグラムは、興味深い特徴を持っていた。それは、単語の順位と出現頻度は逆比例の関係にあるということ。例えば、8位のhisは出現回数が3,326回で、80位のeyesは330回というように。
そして、更に驚くべきことに、この法則性は「ユリシーズ」のみならず別の書籍や例えば新聞記事でも、あるいは別の言語においても見受けられるものであることが分かった。





SergioJimenez - 投稿者自身による作品, CC 表示-継承 4.0, リンクによる


上記は、世界30カ国のウィキペディアの記事中の単語の出現回数と順位を対数プロットしたものだ。このように、出現頻度がn番目に大きい要素が全体に占める割合が1/nに比例するというこの数学的パターンを「ジップの法則」とよぶ。


driveの過去形はなぜdrivedではなくdroveなのか?

現代の英語では、動詞の過去形・過去完了形には単語尾に-d,-edを一律つける、というルールがある。例えば、jumpの過去形はjumpedといった具合に。しかし、haveの過去形はhadだし、singの過去形はsangだったりする。その法則性の違いから、jumpは規則動詞と呼ばれ、singは不規則動詞と呼ばれる。ただ、ここで1点疑問が生じる。「なぜ、不規則動詞というものが存在するのか?」ということだ。

もう少し時間軸を長く取り、英語の歴史をみていこう。現在の英語だけでなく、ドイツ語やヒンディー語、チェコ語など多くの言語のもとになっているとされるのが1.2万年前から6000年前に広く使われていたインド・ヨーロッパ祖語という言語体系だ。インド・ヨーロッパ祖語では、単語内の母音を変化させることで時制の異なる単語を派生させるという仕組み(「アプラウト」と呼ばれる)が採用されていた。アプラウトに従い、インド・ヨーロッパ祖語では、singの過去形はsangとなり、driveの過去形もdroveとして使用されていたようである。時代は移り、2500年前頃。インド・ヨーロッパ祖語から派生し、ゲルマン祖語という体系が生まれた。ゲルマン祖語では時制変化を語尾に-d,-edをつけ表現するという仕組み(デンタル・サフィックス)が採用され、アプラウトでは使いづらい・発音しづらい動詞については-d,-edを付けるようになった。
ただ、この仕組みは徐々にアプラウト方式を侵食しはじめた。これまでアプラウトが活用されていた動詞の時制変化が、-d,-edを付ける形に置き換わるようになったのだ。この「置き換わり」は、日常であまり使うことのない出現頻度の小さい動詞から始まった。thrive(繁栄する)という動詞がある。
thriveの過去形は本来throveだが、1920年代以降徐々に使用回数が少なくなり、変わってthrivedが使用されるようになった。



それをグラフ化したのが上図だ。これは、Googleの書籍デジタル化プロジェクトでデジタル化された書籍データを使い、その年代ごとの単語の出現頻度を時系列でプロットしたものだ。
※ちなみにこのツールは、n-gram viewerと呼ばれ、誰でも無料で利用できる。とても面白いのでぜひ触ってほしい。

ここから「使用頻度が小さい動詞から、時制変化の-d,-ed化が起こっており、長い目で見れば今も進行しているのでは?」ということが想像できるかもしれない。実際そのとおりで、1000年頃の古英語ではhelpの過去形はholpだったが、今は当たり前のようにhelpedが使われている。

さらに想像してみよう。今は不規則動詞だけど、いつかは過去形を-d,-edで表すようになるのだとすると、その「いつか」を予測することはできないだろうか?
ところで、放射性物質がエネルギーを放出し原子核数が減っていく過程を「放射性崩壊」といい、原子核数が統計的に1/2になるのに有する時間を「半減期」という。実は、不規則動詞の規則化は、数学的には放射性崩壊のそれと似ていることがわかっている。過去のデジタル書籍データから、ある動詞の出現回数を集計できれば、不規則動詞の半減期がわかり、規則動詞の出現回数が上回るタイミングが予測可能になる。例えばdroveの使用の「半減期」は「5400年」と算出できる。

話を本題に戻そう。driveの過去形はなぜdroveなのか?その問いに対する解答は以下だ。
1)まず、現在一般的に使用されるdroveは、インド・ヨーロッパ祖語におけるアプラウトという時制変化システムにより生まれたものである。
2)今の英語の直接的な祖先にあたるインド・ヨーロッパ祖語から派生したドイツ祖語では、アプラウトを当てはめにくい動詞について「イレギュラー」に「-d,-ed」をつける手法を採用した。
3)その結果、時間がたつにつれ、日常であまり使用されない単語から徐々に「-d,-ed」化していった。
4)driveは英語圏ではそれなりに使用されている単語だが、徐々に不規則動詞の規則化の流れに乗ってきてはおり、先程の規則化の予測に基づくとdroveの使用回数は、5400年かけて半分になってくると想定されている。


データ駆動型の科学がはじまっている

カルチャロミクス」という本を読んだ。言語学、歴史学的な問いを、今やビッグデータといっても過言ではない書籍のデジタルデータを使い、説いていく話で、めちゃくちゃ面白かった。様々な事例が紹介されており、どれも面白く色々書き足りないことはあるけれど、とくに不規則動詞の話が個人的に面白かったので、上記のとおりまとめてみた。

最後の「不規則動詞の規則化予測」と少し似ているけれど、別の「データ資本主義」という本の中で、ヒトゲノムの解読がなぜここまで早く終わったのか?という話が紹介されていた。
ヒトゲノム解読のために「シーケンサー」という装置でのDNA分子の読み取りを行っていたが、当時1サンプルで解読できるのは500文字程度だったという。しかし、ヒトゲノムは約30億文字存在するので、公的資金が投入されていたチームは、シーケンサーで読み取る前に、全体の俯瞰図を作ることにした。ただ、その俯瞰図をつくるのはとても時間がかかる作業だったので、ヒトゲノム解読完了は2005年頃と言われていた。
一方、分子生物学者のクレイグ・ヴェンターは、公的資金を投入せず民間の研究所セレラを設立し、「全ゲノムショットガン配列解析法」という独自の手法を開発した。
ショットガン法は、まず、ゲノム全体を物理的に短いNDAにランダム裁断する。得られた大量の断片をシーケンサーで片っぱしから読み取っていき、DNA断片の配列重なりをコンピュータでつなぎ合わせることで連続した全ゲノムの遺伝子配列を決定する。理論上は全ゲノムの約10倍相当の配列を読めばすべての断片が整列し、連読すると予想されたので、ヴェンターは300台のシーケンサーを稼働させ、民間スパコンを何十台も揃え、コンピュータによる力づくの解読を行った。結果、作業開始1年も立たない1999年にはヒトゲノムの解読を終わらせてしまった。

こういった動きが、科学全般に起こっていると思う。
これまでは、仮説としての理論をまず構築し、その確からしさを検証するデータを集め、仮説検証を行う、という流れの理論駆動型科学が一般的なものだった。
しかし、ショットガン法しかり、モデルがなくても大量のデータとコンピュータがあれば正しい結果を得られることが分かってきているので、まずデータを集め、そこから新しい発見をコンピュータが行っていくようになるのかもしれない。
いわゆる狭義の科学だけではなく、例えば人文科学の分野でも、データがあれば面白い発見が次々に生まれる世界になる、という可能性にとてもワクワクさせられた読書体験だった。

「カルチャロミクス」は10月頭に文庫本が出て、手が届きやすい値段になった(自分もそのタイミングで出会った人間の1人)ので、まだ読んでない人はぜひ読んでほしい。

 

 このエントリーをはてなブックマークに追加

2019/09/15

「東京都オープンデータカタログサイト」にオープンデータ化要望があったデータ

東京都オープンデータカタログサイトという、東京都が運営するオープンデータのカタログサイトがあります。CKANベースでできており、現時点で1900件ほどのデータセットが公開されています。


このサイトを利用している人たちが、どのようなデータをほしいと考えているのかを把握したいと思い、サイト内にある「リクエストボックス」に来ているオープンデータ関連の要望の一覧について、東京都に問い合わせたところ、一覧をいただけたので公開します。

[Google Drive]東京都オープンデータカタログ_リクエスト一覧


上記にもある通り、
・都営バスのデータを標準的なバス情報フォーマットで公開してほしい
「東京の土地利用 平成28年東京都区部」のローデータ
・東京都23区の自治体毎の日影規制についての解説および日影規制区域の指定状況(指定されている面積ha)とその区域が分かる図面

など、交通系、都市計画系のデータ開示の要望があることがわかりました。
ただ、そもそものリクエスト件数が少ないですねー。。あまり見られていない/活用されていないサイトなのかなあ。


 このエントリーをはてなブックマークに追加

2019/06/29

Civic Tech Forum 2019で「行政をハックし、行政データをオープンにしてみようとした結果」というタイトルで登壇しました。


先日も投稿しましたが、今日6月29日(土)に開催されたCivic Tech Forum 2019にスピーカーとして登壇してきました。

資料をSpeakerDeckにアップしたので、お時間あるときに見ていただけると嬉しいです。



お伝えしたかったことは、
・行政・自治体が思ってる以上に、行政が保有するデータには価値がある
・いったんデータ出してくれれば、民間はエンジニアリングでなんとか使える状態にするので、自治体は「とりあえずデータを公開する」を目標に動いてほしい
・それでも出せないという理由があるならそれは一緒に課題を解決したい!

ということです。

登壇後、中央官庁、自治体、あるいは民間で行政データを活用したサービス開発に携わっている多くの方にお声がけいただきました。

グラレコも描いてもらいました!
実物はこんなシュッとしてませんけど笑、うれしいです!


あと、CTFのハッシュタグで最もRT・イイねが多かったということで大賞も受賞しました。ありがとうございます!



当日見に来てくださった皆さま、運営スタッフの皆さま、ありがとうございました!
引き続き情報交換させていただけるとうれしいです。

スライドにも記載していますが、この取り組みを一緒に進めてくれる人も募集中です。



 このエントリーをはてなブックマークに追加