データサイエンティストスキルチェックをしてスキルの棚卸しをしてみた

一般社団法人 データサイエンティスト協会という団体が
データサイエンティスト(分析人材)の育成のため、その技能(スキル)要件の定義・標準化を推進し、社会に対する普及啓蒙活動
― データサイエンティスト協会 協会概要ページより
を行っており、「データサイエンティストスキルチェックシート」が公開されている。これを使って自身のスキルの棚卸しをしてみた。
理由
データアナリストのようなスキルを少しずつ身につけてい行きたいと思い、雑にBigQueryを触ってみたりPythonに手を出してみたりした。 統計もある程度理解していないといけないよなーと漠然に思っていて、「完全独習 統計学入門」を読んだりした(分かった気にはなった)。
データを扱うシステムなどの入門書や実践書を探してみたが、本当に今やることなのか?と思い、自分が今できることと目指そうとしている職域が求めているスキルの棚卸しをしようと考えた。探してみるとすぐに「データサイエンティストスキルチェックシート」が見つかりこれをもとに軽い気持ちでチェックしてみた。
- データサイエンティスト スキルチェックシート ver3.01 - PDF(6.3MB)
- web版のスキルチェックもあるのでサクッと試したい方はこちら
チェックの仕方
おそらく通常は全問に対して回答していくのだと思うが、ひとまず土台となる「見習い」のスキル(チェックリストのスキルレベル星1つ)とちょっと背伸びしてスキルレベル2までチェックした。

カテゴリが 「ビジネス力」 「データサイエンス力」 「データエンジニアリング力」 の3つに分類されているのでそれぞれ見つつ、自分のスキルとの差分が分かるように「習得している」「習得したい」欄を設けてチェックをした。こうすることで、チェックリストにある『「必須スキル」が○で、「習得している」が空』であるものがやるべきことになる。
チェック項目を厳密にチェックしようとすると時間もかかるのである意味直感でチェックをした。チェック結果と、チェックリスト資料に掲載されている 「データサイエンティストのスキルレベル 2019年版」 を見て、「僕はデータエンジニアとしての技術スキルが圧倒的に足りていない」ということが判明した。データエンジニアスキルを土台としてビジネス・サイエンススキルを伸ばせば、アナリスト・サイエンティストになれるという解釈をした。
データエンジニア的なスキル
Google Cloudではじめる実践データエンジニアリング入門を購入して少しずつ読み進めているが(進捗は良くない)、とても難しいと感じているのがデータを取り扱っているシステム基盤によってはツールが大きく変わってしまう点。GCPを使っていればBigQueryという流れになりやすいが、AWSだとAthenaを利用したり、予算感によっては使えるものが限られることもある。ツールによってワークロードが大きく変わるためツールに縛られた知識では戦えなさそう。
ツールの使い方というよりもっと汎用的なデータを処理したり集計する際に考えるべきこと、設計手法、ETL・ELT、データ処理全体でのベストプラクティスみたいなのを学ばなければいけないと思う。個人的な感覚だと総合格闘技みたいな印象ある。めちゃ大変そう。だけどなんだかワクワクする。
まとめ
データサイエンティスト協会のスキルチェックシートで、自身のスキルの棚卸しと習得するべきスキルの把握ができたのであとはやるだけ状態になった。 データサイエンス100本ノックをコツコツやったり、「Google Cloudではじめる実践データエンジニアリング入門」をひとまず進めていく。