こんにちは。
データ大好き榊原です。
先日こんなエントリーがありました。
「コンサルタントだった頃学んだ「議論がうまい人」とそうでない人の5つの差異」
(http://blog.tinect.jp/?p=45811)
この中で、「2.議論のうまい人は、「事実」からスタートする」
は非常に重要と考えておりまして、いろんな人と話をするときに結果を求めないただの雑談の中で「で、ソースは?」
とついつい口をはさみ嫌われるのが常態化しております。
2018年は寛容に生きたいと思います。
データ扱うならば、やはりその筋の方と相まみえないとということで今日はこちらに寄稿しております。
「Microsoft Power BI Advent Calendar 2017」
(https://qiita.com/advent-calendar/2017/power-bi)
名古屋でようやくPowerBI勉強会です!
永らく名古屋の勉強会の閑散さを嘆いておりますが、名古屋でやってほしい勉強会の一つ「PowerBI勉強会」をようやく名古屋でも開催できることになりました。
本家「Power BI 勉強会」
(https://powerbi.connpass.com/)
誘致に関して尽力いただいた名古屋主催:I社のY氏、本当にありがとうございます。
また、開催にあたりご快諾いただいた「PowerBI勉強会主催」のK氏、またS氏には厚く御礼申し上げます。
気になる開催日ですが、現在の予定では以下の通りです。
- 日時:2018年2月10日(土)13:00~17:00(時間は前後します)
- 場所:名古屋駅付近
※正式な情報は追って上記勉強会サイトにて行います。
東京の開催では毎回多くの受講者を集め、前回の第6回では105名の定員に対して117名の応募という人気・白熱ぶりです。
(https://powerbi.connpass.com/event/69605/)
初の名古屋開催、名古屋ってどんなところ?
ということで、初の地方開催である名古屋はどんなところなのか、さっそくPowerBIを使ってビジュアライズしてみようと思います。
利用したのは名古屋市の提供するオープンデータ。
このデータから、名古屋についてみてみましょう。
おっと?一筋縄にはいかない?
市町村の提供するデータなので、フォーマットは整っているものとしてまずは何もせずに取り込んでみました。
取り込んだのはこちらの情報
「年齢別人口(全市・区別) 、人口ピラミッド」
(http://www.city.nagoya.jp/shisei/category/67-5-5-7-0-0-0-0-0-0.html)
うーんむ・・・
全然だめですね・・・(ある程度は予測済み)
PowerBIでビジュアライズするにあたり、前段階としてデータを整頓するという作業がどうしても必要になってきます。
今回はそこのところを対応しつつ、名古屋の紹介をしたいと思います。
PowerBIで利用するための元データの修正
元データをExcelで開くとこんな感じです。
結果から言うと、以下の編集を施しました。
- 不要な見出し列(1~2行目)の削除
→正しく列情報が取得できない - 西暦のフォーマット変更
→シリアル値を正確に取得してくれない - 一部年度データの削除
→取得範囲が異なり正規化できない - 軸ラベルの付与
→軸を基準としたソートができない
「1.不要な見出し列の削除」
取り込むデータはこんな感じになっており、データの注釈が1~2行目に記載されています。
これはPowerBIに取り込む際に邪魔になるので、削除します。
「2.西暦のフォーマット変更」
部分的に正しくシリアル値に変換してくれていましたが、そもそも年度別でフォーマットそのものが異なる箇所があったので、置換しました。
「3.一部年度データの削除」
年度により、年齢分布の丸め方が異なっていたので、2004年以前のデータ、それから2017年も10、11月のデータを削除しました。
こういったところからも長寿化の傾向が見られますね。
2017年10月から分類が増えてる!!!
「4.軸ラベルの付与」
グラフの軸にしたいデータが正規化されたデータではなく、年齢ごとの分類情報なので、そのまま取り込んだだけではきれいにソートしてくれません。いろいろ試してはみたのですが元データのままではうまくソートができなかったため、やむなくラベルにNoを振ることになりました。(なんかいい方法ないですかね?)
頭の数値でソートされるため・・・
0~
10~
15~
20~
100~
105~
というような、よくあるダメなソート状態になってしまう。
これでこうなります。
それっぽくなりました。
(さらに元データから総数をフィルタし、2017年9月でフィルタした後、階層別の降順でソートしています)
やっとで名古屋の紹介
ということで出来上がったのがこちら。
男女別に見た年齢別人口構成比と、男女別人口比、年度別の人口推移を表示しています。
年齢別の構成比からは戦前~戦中世代の男女構成比に偏りがあるなーとか、ベビーブーマー強ェ!とかわかると思います。
私が興味深かったのは、年配で男女構成比がずいぶん偏っているにもかかわらず、2017年9月の男女構成比がほぼ50:50になっているところ。
やはりなんらか自然の力が働いていいるんでしょうか。
今回は紙面の都合上ここまでですが、機会があれば、この身近な名古屋のオープンデータを使ってPowerBIの勉強ができたらと思います。
今回の場合は、データの整頓に30分ほど苦戦した後うまく取り込めたら、グラフの表示部分についてはほんの数秒でできてしまっています。
ご存知の通り、この辺のビジュアライズ化の容易さががPowerBIのとてもいいところなんですが、元データがしっかり成形されていればいけないよ・・・というお話でした。
それでは、名古屋のPowerBI勉強会でお会いできること楽しみにしております!