詳細
状況
・データ分析関連のプロジェクトをやっていてよく見かけるのはSAS、SPSS、R、Python。
・ただ、オープンソースのプログラミング言語である R、Pythonに対する顧客の興味は日々増すばかり。
成り立ち
・SASはもともとノース・カロライナ州立大学で農業の数値データを分析するのを主な目的として開発された。Statistical Analysis System(統計的分析システム)。1976年にSASは会社として設立された。
・SPSSはもともと社会科学の分析のために開発された。世界で最初のPC用の統計用プログラミング言語。最初スタンフォード大学で開発が始まり、その8年後SPSSとして会社が設立され、2009年にはIBMに買収された。
・R言語はもともと統計モデルを使った分析を主な目的としてニュージーランドのオークランド大学で開発された。
・Pythonはもともと、あるモンティ・パイソン(ここから名前がつきました)の好きなオランダ人によって作られた。沢山のプログラマーたちが数多くのモジュールを開発し、最近では様々な統計的な分析をするためのツールが揃ってきたことによって、今日、前述の統計ツールと一緒にリストアップされている。
分析視点での違い
・データ分析をするときには、説明のための分析と予測のための分析をいったりきたりする。
・例:何故離れていくのかを「説明」する。
・例:どの顧客が辞めていくのかを「予測」する。
・この予測の方がいわゆる一般にデータ・マイニング、または機械学習と言われる。
・SASとSPSSはもともと仮説検定という視点が重要な学問の場で開発されたこともあって、「説明」のためのデータ分析。
・Rはアルゴリズムの種類と数に関して、説明するための分析と予測するための分析の両方で強力。
・Pythonは学問・研究もしくは統計学の視点からというよりはもともとビジネス・アプリケーションを作るということにフォーカスして開発されたということもあって、アプリケーションの中で直接使われることを目的としている時に特に強い。機械学習のアプリケーションの中でよく使われる。「予測」に強い。
データの可視化
・SASやSPSSより、RやPythonの方が圧倒的に強い。
人材のコスト
・RやPythonを使いこなすことのできるデータ分析者は、そうでない人たちに比べてもっと高い給料をもらっている。
・教育にコストが掛かるが、SASやSPSSなどのような未だにものすごく高いライセンス料を求めてくるツールに比べるとRとPythonはまだ断然安い。
選択
・RとPythonどっちを使うかと聞かれると、それはその時々での最終的な目的による。
・顔やオブジェクトの認識や深層学習をするアプリケーションを作るときにはPythonを使う。
・一方で、どの顧客がキャンセルするかといった予測だけでなく、なぜそうなるのかということを理解するために、顧客の行動パターンを理解するなどといったように、説明するための分析が求められる時はRを使う。
・この二つのプログラミング言語は相互補完なところがある。
・Rの中からPythonのコードを実行するためのツール(reticulate, rPython)があったり、逆にPythonの中からRのコードを実行するためのツール (rpy2)がある。
参考
https://blog.exploratory.io/r-python-sas-spss%E3%82%92%E7%8F%BE%E5%A0%B4%E3%81%AE%E3%83%87%E3%83%BC%E3%82%BF%E3%82%B5%E3%82%A4%E3%82%A8%E3%83%B3%E3%83%86%E3%82%A3%E3%82%B9%E3%83%88%E3%81%AE%E8%A6%96%E7%82%B9%E3%81%A7%E6%AF%94%E3%81%B9%E3%81%A6%E3%81%BF%E3%81%9F-e90a4bacb876