国境大好き芸人

旅行と語学ととプログラミング。陸路で国境を越えるのが生きがいです。

R言語を勉強したらExcelでの集計作業がめちゃくちゃ速くなった

Excelで扱いきれない大規模なデータをR言語で処理する



こんばんは。いつもは台湾ネタが多いのですが、今回からプログラミングについても記事を書こうかなと思います。
ちなみに私は全くのプログラミング初心者ですので、そのあたりご容赦ください。間違ったことを書く可能性もありますが、その際はご指摘頂けると助かります。

仕事の都合上(ECサイトの企画をしています)、大きなデータを扱うことが多いのですが、そこで大活躍中なのがR言語です。

正直、他の言語でも良かったのですが、
・他の言語よりもなんとなくとっつきやすかった
・統計処理に向いている
機械学習なんかも勉強してみたい

という理由から、R言語を始めました。

もうExcelなんて使えないです・・・
Excelだと10万行越えたあたりから処理が遅くなってくることが多いですが、R言語だと全然余裕ですね。
100万行ぐらいあるデータでも余裕で扱えますし、Google AnalyticsのデータをAPIでそのままRに引っ張ってきたりもできるので、作業時間を大幅に短縮することができました。
Accessやマクロを使ってやる手もあるのですが、それよりも断然速くて、しかも勉強できる環境が整っているという点で(R言語に関する日本語の書籍がいっぱいありますし、Web上の情報もたくさん)、Rはおすすめです。

まだまだ勉強中ですが、Excelでの作業の効率化のために使ってみてはいかがでしょうか。

(※R言語が本領を発揮するのは作業効率化というシーンではないとは思いますが、現在の用途はExcelの代替であるため、いったんここではそう書いておきます。)

R言語のインストール



ダウンロードはここから。(英語です)
https://cran.ism.ac.jp/

利用しているPCのOSを選んでダウンロード。
R言語 ダウンロード

さらに、RStudioもインストールしましょう。
https://www.rstudio.com/products/rstudio/download/

RStudioはRの統合開発環境です。
RStudioからRを操作しましょう。そのほうが、表やグラフが見やすいですし、コーディング中の入力補助があるため、ミスを防いだり、書くのが速くなったりします。

R言語のおすすめパッケージ



でっかいCSVファイルを操作したい時にオススメのパッケージです。
Excelでやっていたことを代替するという使い方なら以下は必須かと思いますね。日々の集計業務で、フル活用しています。

dplyr



Excelでピボットを多用したり、sumifsやcountifsで集計をしている人におすすめ。SQLっぽいことができます。(と言ってもSQLはちょっとしか知りませんが・・・)

dplyrを使うためにはインストールする必要があるため、RStudioで次のように入力しましょう。

install.packages("dplyr")

スクショするとこんな感じ。
RStudio dplyr 使い方

使う時は、以下のようにして呼び出す必要があります。
library("dplyr")

data.table



次におすすめしたいパッケージがdata.tableです。
RStudioで以下のように入力して、パッケージをインストール&読み込みをしましょう。

install.packages("data.table")
library("data.table")


あまり使い慣れていないのですが、処理が高速らしいです。
CSVファイルを読み込む時に、
read.csv("path")
を使うよりも、
fread("path")
を使ったほうが高速だったりします。

では、今回はこのへんで。
またノウハウが溜まってきたらR言語について書きますね!