AzureのVirtual Machineで大規模データ解析もサクサクこなせるR環境を構築する

  • このエントリーをはてなブックマークに追加

分析を進めるにあたって試行錯誤のスピードを上げるのって大事ですよね。

そこそこのマシンでも、ちょっとした集計なんかは対して時間がかかりませんが、
機械学習やMCMCなどの計算処理をブン回したいときは非力なマシンだと時間がかかってしょうがないです。

計算処理の高速化はそれこそ様々な手法がありますが、
今回はAzureを使って計算リソースのスケールアップすることができるRStudio Server環境の構築方法を紹介したいと思います。

Ubuntu14.04で構築することを前提に進めていきます。

 

1. Virtual Machineを作成する

Azureの管理ポータルからVirtual Machineを作成します。
DNA NAME, SIZE, NEW PASSWORD, CONFIRM, REGION の各項目を入力して、CREATE A VIRTUAL MACHINE をクリックします。

create-virtual-machine

2. SSHでログインする

Virtual Machineを作る際に設定したパスワードを入力し、ログインします。

 

3. Rのインストール

あとは、分析の際に使うパッケージを入れてください。
Ubuntuの場合

で大体入ります。

見つからない場合は、下記レポジトリを追加してみましょう。

 

4. Rstudio Serverのインストール

バージョンは今日現在の情報ですので、最新版はこちらを参考にしてください。

 

5. ポート開放

Rstudio Server はデフォルトで8787ポートを使います。
Azureでは管理ポータルからポート開放をする必要があります。
open-port

6. Rstudio Server にログインする

login-to-rstudio
Rstudio Server には Linux のユーザーアカウントでログインできます。
ID : azureuser
Pass : {Virtual Machine 作成時に設定した PASSWORD}
ですね。

 

7. 計算リソースのスケールアップの仕方

Virtual Machineを停止させ、CONFIGURE画面から、VIRTUAL MACHINE SIZE を変更することができます。
適したサイズを選んで、再度 Virtual Machine を起動させましょう。
試しに、D14インスタンス(CPU 16コア、Memory 112GB)を立ち上げてみます。
scale-up

CPUコア数

cpu-cores
 

メモリ容量

memory-amount
 

という感じでスケールアップが自由自在な分析マシンが構築できました。
インスタンスサイズには注意しつつ、使いましょう!


参考サイト
cran2deb4ubuntu | The Ubuntu R Blog
RStudio – Download RStudio Server
Getting Started – RStudio Support

  • このエントリーをはてなブックマークに追加