IR担当者でなくとも、調査を担当したり、新しい事業の立ち上げの根拠の為に各部局や部署へデータを依頼する機会というのは、少なくはないと思います。
データを迅速にもらえるのは非常にありがたいのですが、中には困ったなというものもあります。そこでいくつか代表例を紹介してみます。なお、その前にこの記事の結論というか自分が心がけているものを3点書いておきます。
①データを扱うという事は、泥臭い仕事であり、その作業を忌避してはいけません。
自分が思った通りのデータ加工がされていないから、相手にやってくれではなく、ローデータがきちんとあれば、それで良しとしましょう。
②もらったデータは信頼するとともに、疑いましょう。
③データがきちんと出来ていない事に対して怒るより、どうすればデータ管理できるようになるかを支援するのも自分の仕事です(ただし、システム上の問題は除く)
それでは本題にいってみましょう。(今回はエクセルデータが中心の話です。)
①送付されたデータが、その部署で独自に運用しているソフト(拡張子)のもの
その部局や部署でしか使われていないソフトでの拡張子がついたデータを送ってこられる事が昔はありました。その度に「CSVで下さい」と連絡する事がありました。
②データが妙に重い
エクセルデータで何故こんなにあるのだろうと思ったら、ゴミデータがあったりとかで50,000行まであるとか。
③(エクセルデータの場合)神エクセルで作られている
見た目・印刷した時の優先で作られた1セル1文字を入力するデータが、加工がしんどいです。数式やらVBAでと思いますが、それより打ち直したほうが早いのではと思ってしまいます。
なお、似たようなものとしてセルを使うのではなくテキストボックスを使ったデータをいうのもあります。
<参考>一時期話題になりましたね
④データのタイトルについて
大した事ではないのですが、データのタイトルが複雑な階層構造であったり、セルの統合が複雑だったりする場合、データタイトルを再構築し、データを加工する必要があります。まあデータタイトルと見栄えが一致しないケースがたまにあるという事です。あと下の図1ですが、「Aの進学率」みたいな見出しはよく見かけませんか?
⑤データの内容がちょっとおかしい
例えば、学部名というデータのはずなのに、「○○学部」と学部が省略されている「○○」が混在している。半角と全角が混在している。おそらく印刷の見栄えをよくしようと、セルのテキストデータにスペースが多い(意外とセル内改行を知らない人いますよね)。まあスペースあっても、作業としては対した事はないのですけど。
またエクセルに不慣れな人から頂戴した時に、画面上から見えなくなれば、データはなくなると思っていたらしく、列の幅や行の高さが「0」になっている事もありました。(決して非表示機能ではない)
最後にお願いしたデータで、例えば、「この3つの果物の中で、1~3位をつけて下さい」というデータがあるとします。こちらが想像していたのはこういうデータ(図2)でした
そして送られてきたデータ例がこちら(図3)。
なお、各部署からデータを頂戴したら図2と図3それぞれがありました。
⑥途中でタイトル行が入っている
分かりにくいのでイメージ(図4)を入れてみましょう。
別々のデータにすれば良いのでしょうけど。印刷時の見栄えとかあるのでしょうね。
このあたりのデータの困ったなはこちらがわが①どういうデータが欲しいか、②どういう(使用・分析)目的なのか、③データ定義や様式を明確にしておくか等を怠った事で起こった事項なのかもしれません。
その為にはデータマネジメントとかデータガバナンスという話になるのでしょうが、大学としては、データをどう活用するかが優先されており、そこから出てきた課題によって検討しなければいけないとなる事項なのではないかと思っております。