2019/12/21

行政をハックし、行政データをオープンにしてみようとした結果 - 2019年の取組みと今後の展望

この記事は CAMPHOR- Advent Calendar 2019 21日目の記事です。
半年くらい前になりますが、Civic Tech Forumというシビックテックのイベントで登壇しました。




話した内容は
派遣会社の情報を厚生労働省に情報公開請求したことがキッカケで、行政や自治体が保有している色んな情報の在り処を調べるようになった
実際に情報公開請求すると、自治体によってデータの項目がバラバラだったり、ファイル形式もバラバラ
エリアをまたいで欲しい情報をみんなが得られるようにするために、データ項目とファイル形式を揃えて一覧で見られるようにしたい(下図)
というもの。




このときに話した構想を形にするべく、半年間かけて試行錯誤してきました。今日はこの半年間で取り組んだことを書こうと思います。
(文章が多少雑多な感じになってます、ご容赦を🙏)


目次

2019年に取り組んだこと
オープンデータ基盤を作る過程でわかったこと
自治体職員さんがもってる課題感
この先やっていきたいこと
さいごに


2019年に取り組んだこと


オープンデータ基盤は、Civic Tech Forum前の6月頃から少しずつ作り始めていたものの、本格的に取り組み始めたのは7月に入ってから。
データ基盤を作るにあたり、大まかには、以下の通り業務を設計・構築すればよいのではと考えました。




大まかな業務の流れ


①データを保有している自治体部署を特定する

全国には都道府県・市区町村合わせて約1800の自治体が存在します。組織構成や部署名は様々なので、1件1件原課(担当部署)の整理をする必要があるため、これを黙々とやる。


②申請書を生成し郵送する

申請書雛形に必要事項を入力するGoogle Apps Scriptのプログラムを作り、申請書PDFを自動生成します。
また、日本郵政株式会社が運営するWebレターというサービスのAPIを使って、PDFを各自治体の部署の宛先へ自動郵送するシステムを開発しました。このシステムを使ってAPIリクエストの送信すると、郵便局の人がPDFを印刷し、封筒に入れて切手を貼り、設定した宛先へ郵送してくれます。※既にオープンデータとして公開されている場合は、もちろん申請書は送らずデータダウンロードする


③自治体からの問い合わせをFAQに従い回答する

情報公開請求の申請書には、電話番号の記載は求められますが、メールアドレスの記載欄がないことが多く、申請内容についての自治体からの問い合わせは基本的に電話ベースになります。
僕は平日サラリーマンをやっており、この取組みはプライベートでやっているので、全国の自治体さんからの電話を受けきれるはずもなく、電話対応専門のスタッフさんを雇って想定FAQに従い対応してもらうことにしました。


④納付作業をする

自治体とのQAが終わり、情報公開請求の開示決定通知書(請求したデータを開示するよー。手数料xx円だよ、という内容)が届いたら、その通知内容に従い、手数料などの納付作業をします。


⑤自治体からもらったデータを整備する

自治体からもらうデータの形式は、紙・PDF・Excel・CSVが大半です。
・紙の場合→スキャナにかけた後にOCR&パースしCSVに
・PDFの場合→パースしCSVに
をした後、各CSVファイルのカラム名寄せとデータ加工(電話番号に市外局番をつける、和暦→西暦など)をします。


⑥ここまで完了して、データベース構築、という流れです。
以上①〜⑥を、行政文書(飲食店営業に関する情報、病院の情報、保育園etc.)の種類の数だけ実行するというのを定期的(月に1回ペース)に繰り返す、というのを始めています。
ちなみに、データは例えばこんな感じでデータが見られます。





オープンデータ基盤を作る過程でわかったこと


さら〜っと全体の流れを書いてしまいましたが、正直に言ってかなり大変でしたw
ただ、この一連の業務設計や自治体職員さんとのやり取りを通じて、色々なことがわかってきました。

①情報公開とは別に情報提供という制度がある

自治体への情報公開請求は、各自治体が定める情報公開条例に基づき実施することができます。一方、情報提供は自治体が条例に基づかない業務として実施しているもので、市民からのデータ提供依頼が多いものについて、個別にルールを整備して受け付けているものです。
情報公開請求は条例に基づく制度であり、全ての自治体ホームページ上に掲載されていますが、情報提供はホームページ上には案内が掲載されていないことが多く、殆どの場合は、情報公開請求をしてみたら「それについては情報提供で対応している」と回答をもらって初めて分かるものです。
ちなみに情報提供は、自治体から指定される書式の書類で申請する必要がありますが、書類の雛形がホームページ上に存在せず、担当部署を特定し、個別に問い合わせないといけないケースが殆どです。


②自治体が指定する書式でないと情報公開請求を受け付けられない自治体がそれなりにある

今回の取り組みをするにあたり、全国の情報公開条例の条文にひと通り目を通し、申請時に必要な項目(申請者の氏名や連絡先、申請内容など)は微妙に自治体により異なることがわかったので、和集合になるように項目を網羅した情報公開請求書の雛形を作成しました。
ただ、自治体によっては、条例の施行細則等で書式を定めているケースがあり、細則違反になるので、こちらで作成した雛形では受け付けられないと回答をもらいました。
ちなみに、僕が情報公開請求をした自治体のうち31%が指定の書式でないと請求を受け付けない、というものでした。


③紙やPDFでデータ提供されるケースがある

データは、紙やPDFでしか提供してもらえない自治体もそれなりにあります。紙やPDFとはいっても、元々表形式の電子ファイルだったのでは?と思われるものが多かったので、なぜCSVなどで提供できないかを聞いてみると、

・紙でしか提供できない(ex.東京都目黒区)
特定PCからしかアクセスできない台帳システムを使っており、そのPCからのデータ持ち出しができない
情報漏えいを恐れた結果、「ネットワークに繋がっていないPCで管理するのがベスト」と考えている

・PDFでしか提供できない(ex.東京都新宿区)
担当者がデータ改ざんの恐れがあるためPDFでしか開示できないと考えている

という理由が多いことが分かりました。




④自治体独自のルールがある

基本的には、少なくとも指定の情報公開・情報提供の申請書を使えば問題なく申請が可能なことが多いのですが、たまーに独自ルールを設けている自治体もあります。例えば、


・なぜか捺印が必要:広島県呉市、茨城県

法人で請求したとしても、個人の「シャチハタ」でOKらしいので、何のために必要なのか全然わかりませんでした...

・条例上市外の事業者から受け付けられない:福島県いわき市

いわき市の情報公開条例は他の自治体とは違い、市外の事業者からの情報公開請求を認めていないとのこと。そこで、いわき市役所に伺い担当者と対面で話したところ、「市内に営業所があればOK」とのことだったので、いわき市に副業でやっている会社のオフィスを作りました。(それでええんか・・・という気もするけど)


・データのbyte数課金:神奈川県横須賀市

横須賀市は特殊で、情報公開請求すると電子ファイルでのデータ提供をしてもらえますが、その電子ファイルの容量に応じて、1バイト1円という手数料がかかります。

・手数料がめちゃくちゃ高い:東京都中野区

例えば中野区が営業を許可している食品営業事業者は区内に約6,000件あるのですが、1件請求するたびに300円かかるとのこと。つまり、全部オープンにするのに約180万円かかる・・・!(実際に届いた納付書👇)


自治体職員さんがもってる課題感


2019年は、都道府県や市区町村の職員さんと本当にたくさんお話をしました。
その中で、データ公開・オープンデータに取り組めていないという課題感を持ってる職員さんはとても多いと分かりました。例えば、大阪府枚方市では、情報公開請求で台帳データを開示するたびに個人事業主の住所や電話番号が入ってないか(個人情報に該当するので)を目検チェックするので時間がかかる、と仰っていたり。
あるいは前述のいわき市役所を訪問した時だと、担当のおっちゃんが「うちは条例で決まってるから市外には出せないけど、隣の郡山市はデータの公開とか進んでてスゴイんよ」ってボソッと仰っていたり。
その課題の根っこにあるのは、自治体業務やシステムの課題、あるいは縦割りだからこそ自ら旗を振れないことだったりするのかも、と思っています。

もちろん課題感を持って、なんとかしたいと考えている職員さんもたくさんいます。
こういう取り組みをしているせいか、最近は、いくつかの自治体の職員さんから、どんなデータをどういう形式で公開していくとよさそうか、オープンデータ推進にあたり職員をどう動機づけしていくか、の相談をもらうようになり、コンサルティング、研修という形で自分のナレッジを提供させていただくようになりました


この先やっていきたいこと


まず、許認可系のデータについては、先程書いた手順で全てデータベース化していき、スナップショットとして見られるように運用を安定化します。

その上で目指したいのは、企業や市民がほしい情報にたどり着くためのサービスを作るために、データを活用した支援をやっていきたいと考えています。特定分野のデータを使ってWeb上で閲覧できるようなサイトを作ることも考えたのですが、それよりはみんなが見たい・扱いたいデータをもっと使いやすくする、ということに興味があります。

また、データ基盤運用にかかるコストは最低限なんとかできる前提で、非商用・学生向けには無償でデータ基盤を提供したい(実際に進める場合乗り越えないといけない問題はあるのですが…)。
理由は2つ。僕自身、学生時代に経済学をやっていて、研究に使えるビッグデータがあまりなく、もどかしい思いをした経験があるので、(いまは昔よりもデータにアクセスしやすい時代だとは思うけど)自由に使えるデータとして提供したい。
もう1つは、世の中をより良くしたいと思うなら、みんなで解決したほうが早いと考えているから。僕はデータ前処理の専門家ではないし、今自前でやっている名寄せやデータ加工はもっとうまいやり方があるはず。整備したデータも自分一人で触っていても良い分析アウトプットは産まれないので、みんなで処理を改善したり、データを使った分析・モデリングができるようなオンラインコミュニティを作りたいと思っています。


さいごに


この取り組みは勿論1人ではできなくて、色んな人に助けてもらいながら進めています。
自治体からの問い合わせ対応や納付作業をやってくれているスタッフさんは勿論、twitterに投稿したことがキッカケで膨大な紙のスキャンやPDFパースの検証を手伝ってもらったり、最近はbosyuや知り合いづてで出会ったディレクター・エンジニアさんが本格的にチームにJoinしてくれて、少しチームらしい感じになってきました。

でも、まだまだ、やりたいことをやりたいスピードでできてない状態です。興味を持ってくださった方はぜひいつでも@watamboまでご連絡ください!!

また、データ提供をご要望の企業様、サービス運営者様がいらっしゃればぜひお声がけください。


行政をハックし、行政データをオープンにして、世界をより良くしていきたい。

 このエントリーをはてなブックマークに追加

2019/10/28

driveの過去形はなぜdrivedではなくdroveなのか?あるいはデータ駆動科学の可能性について

「ジップの法則」というものをご存知だろうか?
英語圏において一般的に、theという単語は極めて頻度高く使用される。一方で、indisputable(議論の余地のない)という単語は殆ど使われていない。
1930年代、ハーバード大学の文学者ジョージ・キングズリー・ジップは言語を構成する単語の出現頻度についてについての疑問を持った。コンピュータの存在しない、ましてや書籍のデジタル化など一切想像できなかった当時、この疑問に対する解決方法はなさそうにも思えたが、ジェイムズ・ジョイスの連載小説「ユリシーズ」の公式ファンブックの索引ページを単語リストとして、単語ごとの出現回数をプロットしてみることにした。

出来上がったヒストグラムは、興味深い特徴を持っていた。それは、単語の順位と出現頻度は逆比例の関係にあるということ。例えば、8位のhisは出現回数が3,326回で、80位のeyesは330回というように。
そして、更に驚くべきことに、この法則性は「ユリシーズ」のみならず別の書籍や例えば新聞記事でも、あるいは別の言語においても見受けられるものであることが分かった。





SergioJimenez - 投稿者自身による作品, CC 表示-継承 4.0, リンクによる


上記は、世界30カ国のウィキペディアの記事中の単語の出現回数と順位を対数プロットしたものだ。このように、出現頻度がn番目に大きい要素が全体に占める割合が1/nに比例するというこの数学的パターンを「ジップの法則」とよぶ。


driveの過去形はなぜdrivedではなくdroveなのか?

現代の英語では、動詞の過去形・過去完了形には単語尾に-d,-edを一律つける、というルールがある。例えば、jumpの過去形はjumpedといった具合に。しかし、haveの過去形はhadだし、singの過去形はsangだったりする。その法則性の違いから、jumpは規則動詞と呼ばれ、singは不規則動詞と呼ばれる。ただ、ここで1点疑問が生じる。「なぜ、不規則動詞というものが存在するのか?」ということだ。

もう少し時間軸を長く取り、英語の歴史をみていこう。現在の英語だけでなく、ドイツ語やヒンディー語、チェコ語など多くの言語のもとになっているとされるのが1.2万年前から6000年前に広く使われていたインド・ヨーロッパ祖語という言語体系だ。インド・ヨーロッパ祖語では、単語内の母音を変化させることで時制の異なる単語を派生させるという仕組み(「アプラウト」と呼ばれる)が採用されていた。アプラウトに従い、インド・ヨーロッパ祖語では、singの過去形はsangとなり、driveの過去形もdroveとして使用されていたようである。時代は移り、2500年前頃。インド・ヨーロッパ祖語から派生し、ゲルマン祖語という体系が生まれた。ゲルマン祖語では時制変化を語尾に-d,-edをつけ表現するという仕組み(デンタル・サフィックス)が採用され、アプラウトでは使いづらい・発音しづらい動詞については-d,-edを付けるようになった。
ただ、この仕組みは徐々にアプラウト方式を侵食しはじめた。これまでアプラウトが活用されていた動詞の時制変化が、-d,-edを付ける形に置き換わるようになったのだ。この「置き換わり」は、日常であまり使うことのない出現頻度の小さい動詞から始まった。thrive(繁栄する)という動詞がある。
thriveの過去形は本来throveだが、1920年代以降徐々に使用回数が少なくなり、変わってthrivedが使用されるようになった。



それをグラフ化したのが上図だ。これは、Googleの書籍デジタル化プロジェクトでデジタル化された書籍データを使い、その年代ごとの単語の出現頻度を時系列でプロットしたものだ。
※ちなみにこのツールは、n-gram viewerと呼ばれ、誰でも無料で利用できる。とても面白いのでぜひ触ってほしい。

ここから「使用頻度が小さい動詞から、時制変化の-d,-ed化が起こっており、長い目で見れば今も進行しているのでは?」ということが想像できるかもしれない。実際そのとおりで、1000年頃の古英語ではhelpの過去形はholpだったが、今は当たり前のようにhelpedが使われている。

さらに想像してみよう。今は不規則動詞だけど、いつかは過去形を-d,-edで表すようになるのだとすると、その「いつか」を予測することはできないだろうか?
ところで、放射性物質がエネルギーを放出し原子核数が減っていく過程を「放射性崩壊」といい、原子核数が統計的に1/2になるのに有する時間を「半減期」という。実は、不規則動詞の規則化は、数学的には放射性崩壊のそれと似ていることがわかっている。過去のデジタル書籍データから、ある動詞の出現回数を集計できれば、不規則動詞の半減期がわかり、規則動詞の出現回数が上回るタイミングが予測可能になる。例えばdroveの使用の「半減期」は「5400年」と算出できる。

話を本題に戻そう。driveの過去形はなぜdroveなのか?その問いに対する解答は以下だ。
1)まず、現在一般的に使用されるdroveは、インド・ヨーロッパ祖語におけるアプラウトという時制変化システムにより生まれたものである。
2)今の英語の直接的な祖先にあたるインド・ヨーロッパ祖語から派生したドイツ祖語では、アプラウトを当てはめにくい動詞について「イレギュラー」に「-d,-ed」をつける手法を採用した。
3)その結果、時間がたつにつれ、日常であまり使用されない単語から徐々に「-d,-ed」化していった。
4)driveは英語圏ではそれなりに使用されている単語だが、徐々に不規則動詞の規則化の流れに乗ってきてはおり、先程の規則化の予測に基づくとdroveの使用回数は、5400年かけて半分になってくると想定されている。


データ駆動型の科学がはじまっている

カルチャロミクス」という本を読んだ。言語学、歴史学的な問いを、今やビッグデータといっても過言ではない書籍のデジタルデータを使い、説いていく話で、めちゃくちゃ面白かった。様々な事例が紹介されており、どれも面白く色々書き足りないことはあるけれど、とくに不規則動詞の話が個人的に面白かったので、上記のとおりまとめてみた。

最後の「不規則動詞の規則化予測」と少し似ているけれど、別の「データ資本主義」という本の中で、ヒトゲノムの解読がなぜここまで早く終わったのか?という話が紹介されていた。
ヒトゲノム解読のために「シーケンサー」という装置でのDNA分子の読み取りを行っていたが、当時1サンプルで解読できるのは500文字程度だったという。しかし、ヒトゲノムは約30億文字存在するので、公的資金が投入されていたチームは、シーケンサーで読み取る前に、全体の俯瞰図を作ることにした。ただ、その俯瞰図をつくるのはとても時間がかかる作業だったので、ヒトゲノム解読完了は2005年頃と言われていた。
一方、分子生物学者のクレイグ・ヴェンターは、公的資金を投入せず民間の研究所セレラを設立し、「全ゲノムショットガン配列解析法」という独自の手法を開発した。
ショットガン法は、まず、ゲノム全体を物理的に短いNDAにランダム裁断する。得られた大量の断片をシーケンサーで片っぱしから読み取っていき、DNA断片の配列重なりをコンピュータでつなぎ合わせることで連続した全ゲノムの遺伝子配列を決定する。理論上は全ゲノムの約10倍相当の配列を読めばすべての断片が整列し、連読すると予想されたので、ヴェンターは300台のシーケンサーを稼働させ、民間スパコンを何十台も揃え、コンピュータによる力づくの解読を行った。結果、作業開始1年も立たない1999年にはヒトゲノムの解読を終わらせてしまった。

こういった動きが、科学全般に起こっていると思う。
これまでは、仮説としての理論をまず構築し、その確からしさを検証するデータを集め、仮説検証を行う、という流れの理論駆動型科学が一般的なものだった。
しかし、ショットガン法しかり、モデルがなくても大量のデータとコンピュータがあれば正しい結果を得られることが分かってきているので、まずデータを集め、そこから新しい発見をコンピュータが行っていくようになるのかもしれない。
いわゆる狭義の科学だけではなく、例えば人文科学の分野でも、データがあれば面白い発見が次々に生まれる世界になる、という可能性にとてもワクワクさせられた読書体験だった。

「カルチャロミクス」は10月頭に文庫本が出て、手が届きやすい値段になった(自分もそのタイミングで出会った人間の1人)ので、まだ読んでない人はぜひ読んでほしい。

 

 このエントリーをはてなブックマークに追加

2019/09/15

「東京都オープンデータカタログサイト」にオープンデータ化要望があったデータ

東京都オープンデータカタログサイトという、東京都が運営するオープンデータのカタログサイトがあります。CKANベースでできており、現時点で1900件ほどのデータセットが公開されています。


このサイトを利用している人たちが、どのようなデータをほしいと考えているのかを把握したいと思い、サイト内にある「リクエストボックス」に来ているオープンデータ関連の要望の一覧について、東京都に問い合わせたところ、一覧をいただけたので公開します。

[Google Drive]東京都オープンデータカタログ_リクエスト一覧


上記にもある通り、
・都営バスのデータを標準的なバス情報フォーマットで公開してほしい
「東京の土地利用 平成28年東京都区部」のローデータ
・東京都23区の自治体毎の日影規制についての解説および日影規制区域の指定状況(指定されている面積ha)とその区域が分かる図面

など、交通系、都市計画系のデータ開示の要望があることがわかりました。
ただ、そもそものリクエスト件数が少ないですねー。。あまり見られていない/活用されていないサイトなのかなあ。


 このエントリーをはてなブックマークに追加