記録帳

クラウド、データ分析、ウイスキーなど。

データ分析系ツール総まとめ

皆さんあけましておめでとうございます。今年もどうぞよろしくお願いします。

前置き

最近、データ分析系のツールが巷に乱立していますね。

あっちではAutoML搭載のツールが出た、こっちではOSSでデータ品質をチェックできるツールが出た、と毎日のようにアップデートされていきます。

最新情報もいいですが、一旦ここらで腰を据えて、大御所ツール群を体系的に知っておくことは、必要だと思います。

ということで、今回は、データ分析系のツールを(主に)DMBOK観点で、(大体)ガートナーのマジッククアドラント(以下、MQと呼ぶ)を使ってまとめていきたいと思います。

・DMBOKとは?

データマネジメント知識体系(Data Management Body Of Knowledge)の略です。SIerの方には、「PMBOKのデータ管理バージョン」といった方が分かりやすいでしょうか。
米国のDAMAという団体が、「データを管理するとき、こんなことすればうまくいくでー!」というノウハウを1つにまとめたのがこれです。
本はでかくて分厚い、かつ内容が難しいという初心者泣かせの書籍です。

・ガートナーのMQとは?

ガートナー社が年に1度出している、「各領域で強いやつらを決めようゼ!大会」の結果です。
「gartner magic quadrant」とググるとイメージつくと思います。
その領域のサービスを提供している会社を、第4象限に分類しているグラフがそれです。

まとめ方

まとめる軸について

上で記載した通り、基本はDMBOKの11領域ごとに調査します。
ただ、以下の4領域は除外しています。
「データアーキテクチャ」「データカバナンス」:ツールを使ってどうこうという領域ではないため。
「データストレージ」「データセキュリティ」:ガートナーのMQになかったため。

また、DMBOKになかった「機械学習」という領域を追加しています。昨今のデータ分析には必須であるためです。
さらに、細かいですが「DWHとBI」という領域は、「DWH」「BI」と2つに分けました。それぞれツールが全然違うからです。

軸ごとのツールの選び方

基本的には、MQの
リーダー(第1象限)
チャレンジャー(第2象限)
概念先行型(第4象限)
の3つに記載されているツールを抽出します。特定市場指向型(第3象限)はまだ有名どころじゃないので除外してます。
それぞれのMQのリンクは最後に載せますが、本物のMQは見るのにお金がかかります。
そのため、各ツールベンダーが「俺のツールがMQに乗ったぜ!いぇーい!」と言わんばかりに見せつけているページを調査対象としています。
また、データモデリングはMQが見つからなかったので、適当にググったまとめサイトから持ってきています。Top10まであったのでTop5までをLeader扱いで載せてます。
そして、ドキュメントも見つからなかったので「Enterprise Agile Planning Tools」というMQから持ってきています。wiki系のツールがたくさん載っていたからです。

結果

結果の見方

MQの象限ごとに、セルの色を塗りつぶしています。
リーダー(第1象限):緑
チャレンジャー(第2象限):青
概念先行型(第4象限):赤
また、まとめていたら以下のように分けた方が分かりやすかったので、結果の表は2つできています。
①複数領域の機能を有するツール群
②単独領域機能しか持たないツール群
一応注意ですが、これはMQから抽出した結果です。
「xxのツールはこの機能も持ってるよ!!」という指摘はめちゃくちゃあると思います。というか私がありました。
文句はガートナーに言ってください。

結果①複数領域の機能を有するツール群

f:id:supa25:20220105001022p:plain
複数機能ツール群
  • ぱっと見、BI、マスタデータ、ドキュメント、データモデリングは複数ツールでの緑(Leader)が少ない。

このあたりは、機能を具備したツールが現れるかも?

  • IBMがパない。

DMBOKすべて搭載!をうたい文句にしたIBMソリューションが出るかも?

クラウド側で欠けている領域にも進出するor機能を強化するかも?

  • Syntiという謎の(失礼)会社が、全てLeaderではないが3領域カバー。

2020年4月から日本法人もできているらしい。今後クるかも?

結果②単独領域機能しか持たないツール群

f:id:supa25:20220105001054p:plain
単独機能ツール群
  • メタデータ、ドキュメントあたりは単独でLeaderのツールが多い。

複数ツールたちに買収されるかも?(LookerをGCPが買収したように)

  • データクオリティは単独ツールでLeaderが1つもない。

もうちょっとライトに使えるデータクオリティツールが流行るかも?

  • SnowflakeやAlteryx、Datarobotなど有名だがLeaderでないツールがいくつか存在する。

他にも、ここにあるLeader以外のツールで有名になるものが出てくるかも?

終わりに

こういうまとめ方しておいてなんですが、
IBM、SAP最強!!!これだけ知ってればベンダー的にもオールオッケー!!
とはいかないのが難しいところ。
特に、AWS/GCP/Azureを使っているたくさんの人々は、いったい何を使えば幸せなのか?は余計にわからなくなった気がします。
ただ、今後はこの3つの動きが出ていくのではないかな、と思います。
クラウドベンダが足りない領域を自分で作る or どこかの会社を買収する
IBMやSAPなどの強強ベンダーが足りない機能を補強していく
・圧倒的な差別化要素(特許出してる技術など)で突き抜けた一転集中型サービスが出てくる

私個人としては、クラウドベンダが足りないところを作ってくれた方が楽だなぁと思います。ただ、ツールベンダはそれだと嬉しくないわけで、どのように展開していくかは見ものですね。
あまりまとまりのない記事になってしまいましたが、以上!

参考文献

上でも記載していますが、MQの本文ではなく、各ベンダがニュースで載せているリンクです。
2022年1月5日現在は見れていますが、今後見れなくなる可能性は十分ありますのでご注意ください。

  • データクオリティ

ガートナー社の2021年データ品質ソリューションのマジック・クアドラント | Informatica Japan

2020年のしか見つからなかった。
ガートナー社の2020年メタデータ管理ソリューションのマジック・クアドラント | Informatica Japan

  • DWH

2020年のしか見つからなかった。
Teradata Leads in Gartner Magic Quadrant for Cloud Database

  • BI

2021年 ガートナー アナリティクス& BIプラットフォームについてのマジック・クアドラント

  • マスタデータ

2021 Gartner Magic Quadrant for Master Data Management Solutions | TIBCO Software

  • ドキュメント、コンテンツ管理

Enterprise Agile Planning Toolsというちょっと違う領域から持ってきている。ツール群が大体この領域だと判断したため。
Atlassian - a Leader in Gartner's Magic Quadrant

  • データ統合

クラウドアナリティクスおよびクラウドデータ管理のための業界最高のクラウドネイティブデータ統合 | Informatica Japan

ガートナーじゃない、ググって出てきたサイト。
Top 10 Data Modeling Tools to Know in 2021 - Spectral

MathWorks、ガートナー社の 2021 年のマジック・クアドラントでリーダーの 1 社と評価 - MATLAB & Simulink