半年くらい前になりますが、Civic Tech Forumというシビックテックのイベントで登壇しました。
話した内容は
・派遣会社の情報を厚生労働省に情報公開請求したことがキッカケで、行政や自治体が保有している色んな情報の在り処を調べるようになった
・実際に情報公開請求すると、自治体によってデータの項目がバラバラだったり、ファイル形式もバラバラ
・エリアをまたいで欲しい情報をみんなが得られるようにするために、データ項目とファイル形式を揃えて一覧で見られるようにしたい(下図)
というもの。
このときに話した構想を形にするべく、半年間かけて試行錯誤してきました。今日はこの半年間で取り組んだことを書こうと思います。
(文章が多少雑多な感じになってます、ご容赦を🙏)
目次
・2019年に取り組んだこと
・オープンデータ基盤を作る過程でわかったこと
・自治体職員さんがもってる課題感
・この先やっていきたいこと
・さいごに
2019年に取り組んだこと
オープンデータ基盤は、Civic Tech Forum前の6月頃から少しずつ作り始めていたものの、本格的に取り組み始めたのは7月に入ってから。
データ基盤を作るにあたり、大まかには、以下の通り業務を設計・構築すればよいのではと考えました。
大まかな業務の流れ
①データを保有している自治体部署を特定する
全国には都道府県・市区町村合わせて約1800の自治体が存在します。組織構成や部署名は様々なので、1件1件原課(担当部署)の整理をする必要があるため、これを黙々とやる。
②申請書を生成し郵送する
申請書雛形に必要事項を入力するGoogle Apps Scriptのプログラムを作り、申請書PDFを自動生成します。
また、日本郵政株式会社が運営するWebレターというサービスのAPIを使って、PDFを各自治体の部署の宛先へ自動郵送するシステムを開発しました。このシステムを使ってAPIリクエストの送信すると、郵便局の人がPDFを印刷し、封筒に入れて切手を貼り、設定した宛先へ郵送してくれます。※既にオープンデータとして公開されている場合は、もちろん申請書は送らずデータダウンロードする
③自治体からの問い合わせをFAQに従い回答する
情報公開請求の申請書には、電話番号の記載は求められますが、メールアドレスの記載欄がないことが多く、申請内容についての自治体からの問い合わせは基本的に電話ベースになります。
僕は平日サラリーマンをやっており、この取組みはプライベートでやっているので、全国の自治体さんからの電話を受けきれるはずもなく、電話対応専門のスタッフさんを雇って想定FAQに従い対応してもらうことにしました。
④納付作業をする
自治体とのQAが終わり、情報公開請求の開示決定通知書(請求したデータを開示するよー。手数料xx円だよ、という内容)が届いたら、その通知内容に従い、手数料などの納付作業をします。
⑤自治体からもらったデータを整備する
自治体からもらうデータの形式は、紙・PDF・Excel・CSVが大半です。
・紙の場合→スキャナにかけた後にOCR&パースしCSVに
・PDFの場合→パースしCSVに
をした後、各CSVファイルのカラム名寄せとデータ加工(電話番号に市外局番をつける、和暦→西暦など)をします。
⑥ここまで完了して、データベース構築、という流れです。
以上①〜⑥を、行政文書(飲食店営業に関する情報、病院の情報、保育園etc.)の種類の数だけ実行するというのを定期的(月に1回ペース)に繰り返す、というのを始めています。
ちなみに、データは例えばこんな感じでデータが見られます。
オープンデータ基盤を作る過程でわかったこと
さら〜っと全体の流れを書いてしまいましたが、正直に言ってかなり大変でしたw
ただ、この一連の業務設計や自治体職員さんとのやり取りを通じて、色々なことがわかってきました。
①情報公開とは別に情報提供という制度がある
自治体への情報公開請求は、各自治体が定める情報公開条例に基づき実施することができます。一方、情報提供は自治体が条例に基づかない業務として実施しているもので、市民からのデータ提供依頼が多いものについて、個別にルールを整備して受け付けているものです。
情報公開請求は条例に基づく制度であり、全ての自治体ホームページ上に掲載されていますが、情報提供はホームページ上には案内が掲載されていないことが多く、殆どの場合は、情報公開請求をしてみたら「それについては情報提供で対応している」と回答をもらって初めて分かるものです。
ちなみに情報提供は、自治体から指定される書式の書類で申請する必要がありますが、書類の雛形がホームページ上に存在せず、担当部署を特定し、個別に問い合わせないといけないケースが殆どです。
②自治体が指定する書式でないと情報公開請求を受け付けられない自治体がそれなりにある
今回の取り組みをするにあたり、全国の情報公開条例の条文にひと通り目を通し、申請時に必要な項目(申請者の氏名や連絡先、申請内容など)は微妙に自治体により異なることがわかったので、和集合になるように項目を網羅した情報公開請求書の雛形を作成しました。
ただ、自治体によっては、条例の施行細則等で書式を定めているケースがあり、細則違反になるので、こちらで作成した雛形では受け付けられないと回答をもらいました。
ちなみに、僕が情報公開請求をした自治体のうち31%が指定の書式でないと請求を受け付けない、というものでした。
③紙やPDFでデータ提供されるケースがある
データは、紙やPDFでしか提供してもらえない自治体もそれなりにあります。紙やPDFとはいっても、元々表形式の電子ファイルだったのでは?と思われるものが多かったので、なぜCSVなどで提供できないかを聞いてみると、
・紙でしか提供できない(ex.東京都目黒区)
→特定PCからしかアクセスできない台帳システムを使っており、そのPCからのデータ持ち出しができない
→情報漏えいを恐れた結果、「ネットワークに繋がっていないPCで管理するのがベスト」と考えている
・PDFでしか提供できない(ex.東京都新宿区)
→担当者がデータ改ざんの恐れがあるためPDFでしか開示できないと考えている
という理由が多いことが分かりました。
④自治体独自のルールがある
基本的には、少なくとも指定の情報公開・情報提供の申請書を使えば問題なく申請が可能なことが多いのですが、たまーに独自ルールを設けている自治体もあります。例えば、
・なぜか捺印が必要:広島県呉市、茨城県
法人で請求したとしても、個人の「シャチハタ」でOKらしいので、何のために必要なのか全然わかりませんでした...・条例上市外の事業者から受け付けられない:福島県いわき市
いわき市の情報公開条例は他の自治体とは違い、市外の事業者からの情報公開請求を認めていないとのこと。そこで、いわき市役所に伺い担当者と対面で話したところ、「市内に営業所があればOK」とのことだったので、いわき市に副業でやっている会社のオフィスを作りました。(それでええんか・・・という気もするけど)今日いわき市役所に行って色々お話伺ってきたのですが、「いわき市内に事務所があれば申請できる。例えばシェアオフィスで住所登録するとかもOK」とのことだったので、いわき駅近くのコワーキングスペースで早速契約をして住所登録完了。その後市役所にもう一度行って情報公開請求の申請完了しました😎 https://t.co/1MY8vuWOOI pic.twitter.com/ZtK7uiIw8L
— 渡邊 亮輔 (@watambo) December 17, 2019
・データのbyte数課金:神奈川県横須賀市
横須賀市は特殊で、情報公開請求すると電子ファイルでのデータ提供をしてもらえますが、その電子ファイルの容量に応じて、1バイト1円という手数料がかかります。・手数料がめちゃくちゃ高い:東京都中野区
例えば中野区が営業を許可している食品営業事業者は区内に約6,000件あるのですが、1件請求するたびに300円かかるとのこと。つまり、全部オープンにするのに約180万円かかる・・・!(実際に届いた納付書👇)自治体職員さんがもってる課題感
2019年は、都道府県や市区町村の職員さんと本当にたくさんお話をしました。
その中で、データ公開・オープンデータに取り組めていないという課題感を持ってる職員さんはとても多いと分かりました。例えば、大阪府枚方市では、情報公開請求で台帳データを開示するたびに個人事業主の住所や電話番号が入ってないか(個人情報に該当するので)を目検チェックするので時間がかかる、と仰っていたり。
あるいは前述のいわき市役所を訪問した時だと、担当のおっちゃんが「うちは条例で決まってるから市外には出せないけど、隣の郡山市はデータの公開とか進んでてスゴイんよ」ってボソッと仰っていたり。
その課題の根っこにあるのは、自治体業務やシステムの課題、あるいは縦割りだからこそ自ら旗を振れないことだったりするのかも、と思っています。
もちろん課題感を持って、なんとかしたいと考えている職員さんもたくさんいます。
こういう取り組みをしているせいか、最近は、いくつかの自治体の職員さんから、どんなデータをどういう形式で公開していくとよさそうか、オープンデータ推進にあたり職員をどう動機づけしていくか、の相談をもらうようになり、コンサルティング、研修という形で自分のナレッジを提供させていただくようになりました。
この先やっていきたいこと
まず、許認可系のデータについては、先程書いた手順で全てデータベース化していき、スナップショットとして見られるように運用を安定化します。
その上で目指したいのは、企業や市民がほしい情報にたどり着くためのサービスを作るために、データを活用した支援をやっていきたいと考えています。特定分野のデータを使ってWeb上で閲覧できるようなサイトを作ることも考えたのですが、それよりはみんなが見たい・扱いたいデータをもっと使いやすくする、ということに興味があります。
また、データ基盤運用にかかるコストは最低限なんとかできる前提で、非商用・学生向けには無償でデータ基盤を提供したい(実際に進める場合乗り越えないといけない問題はあるのですが…)。
理由は2つ。僕自身、学生時代に経済学をやっていて、研究に使えるビッグデータがあまりなく、もどかしい思いをした経験があるので、(いまは昔よりもデータにアクセスしやすい時代だとは思うけど)自由に使えるデータとして提供したい。
もう1つは、世の中をより良くしたいと思うなら、みんなで解決したほうが早いと考えているから。僕はデータ前処理の専門家ではないし、今自前でやっている名寄せやデータ加工はもっとうまいやり方があるはず。整備したデータも自分一人で触っていても良い分析アウトプットは産まれないので、みんなで処理を改善したり、データを使った分析・モデリングができるようなオンラインコミュニティを作りたいと思っています。
さいごに
この取り組みは勿論1人ではできなくて、色んな人に助けてもらいながら進めています。
自治体からの問い合わせ対応や納付作業をやってくれているスタッフさんは勿論、twitterに投稿したことがキッカケで膨大な紙のスキャンやPDFパースの検証を手伝ってもらったり、最近はbosyuや知り合いづてで出会ったディレクター・エンジニアさんが本格的にチームにJoinしてくれて、少しチームらしい感じになってきました。
でも、まだまだ、やりたいことをやりたいスピードでできてない状態です。興味を持ってくださった方はぜひいつでも@watamboまでご連絡ください!!
また、データ提供をご要望の企業様、サービス運営者様がいらっしゃればぜひお声がけください。
行政をハックし、行政データをオープンにして、世界をより良くしていきたい。
Tweet