R初心者の館(RとRStudioのインストール、初期設定、基本的な記法など)
本記事について
R Advent Calendar 2019 2日目の記事です。
本記事執筆のモチベーション
ゼミや講義でRを使いたいことがあります。しかし、インストールや初期設定、基本的な記法についての説明で時間を使ってしまうのはもったいないと思い、「これを事前に読んできて」と言えば済むような資料を用意したいと思いました(もちろんすでに、ネット上には有用な記事がたくさんあります)。もし同様の要望をお持ちの方がいらっしゃったら、本記事をご活用いただければ幸いです。
そういうわけで、本記事では、Rをまったく触ったことがない初心者を読者に想定しています。また、筆者の環境がWindowsであるため、同環境を事例として説明しています。
目次
RとRStudioのインストール
Rとは
公式ページの説明の通り、Rはフリーの、オープンソースのプログラミング言語で、様々な環境上で動きます(Linux系、Windows、MacOS)。統計解析や作図に強い点が特徴です。
Rのデフォルトの機能だけでも相当のことができますが、Rはパッケージ(package)を活用することで、どんどんその機能を拡張することが出来ます。
ピカチュウはでんきタイプのポケモンなので、レベルアップに伴い、基本的にはでんき系の技を中心に覚えていきます。「でんじは」とか「かみなり」とか。 しかし、わざマシンを使うと、ピカチュウがその技を使用できるようになります。例えば「ねむる」のわざマシンを使うと、自力では覚えないはずの「ねむる」を使用可能になります。
パッケージはこのように、本来備わっていない機能を、後から追加するための道具と考えてください。詳しい説明は後述します。
Rのインストール
Rにまつわるエトセトラは、CRAN(しーらん:Comprehensive R Archive Network)からダウンロードします。日本では、以下のいずれかのミラーサイトからダウンロードするとよいでしょう。
自分の環境(Linux、MaxOS、Windows)に適したリンクを選択し...
「install R for the first time」をクリックしましょう(下図の反転している部分)。最新バージョンのRをダウンロードするための画面に移動します。「Download~」をクリックするとインストーラーがダウンロードされます。
インストーラーを起動したら、「OK」と「次へ」ボタンだけを押しましょう。他の設定は一切変更しないでください。
※もし変更する場合は、インストール場所に注意してください。過去に、「パスに日本語が含まれる場所」にインストールしたり(例:C:/Users/hogehoge/Documents/分析)、同期しているクラウドストレージ(onedrive等)上にインストールしたりしたりしたため、トラブった例がありました。
これでRがインストールできました。このままRを立ち上げて操作してもいいのですが、RStudio経由でRを操作したほうが圧倒的に便利です。そこで次節ではRStudioのインストール方法を説明します。
RStudioとは
RStudioは、Rをより使いやすくするための統合開発環境(IDE)です。よく、「RStudioがあれば、Rは不要ですか?」と聞かれることがありますが、そうではありません。Rを直接操作するのではなく、RStudio経由でRを操作するわけなので、RもRStudioもそれぞれインストールする必要があります。
RStudioのインストール
ローカル環境にインストールして使用するRStudio Desktopと、サーバ上でRStudioを操作するRStudio Serverがありますが、ここではRStudio Desktopの利用方法を説明します。
RStudioの公式サイトから、最新版のRStudioインストーラーをダウンロードしてください。Installers for Supported Platformsの中から、各自の環境に合ったインストーラーを選んでください。
インストーラーを起動したら、「次へ」と「インストール」ボタンだけを押しましょう。他の設定は一切変更しないでください。
※もし変更する場合は、インストール場所に注意してください。過去に、「パスに日本語が含まれる場所」にインストールしたり(例:C:/Users/hogehoge/Documents/分析)、同期しているクラウドストレージ(onedrive等)上にインストールしたりしたりしたため、トラブった例がありました。
これでRStudioのインストールも完了です。RStudio経由でRを操作できるようになったので、以後はRStudioだけを起動させればよいです。Windowsの場合はスタートメニューから探してください。
RStudioの初期設定
次は、RStudioを本格的に使い始める前の初期設定を整えます。以後の初期設定はすべて、Tools → Global Options... の中で行います。
デフォルトの作業ディレクトリ(Working Directory)の設定
通常、ファイルを参照する際に、「Cドライブの中の、R_practiceというフォルダの中の、practice_1.csvという名前のファイル(C:/R_practice/practice_1.csv)」というようにファイルが置かれた場所を絶対パスで正確に指定する必要があります。いわば、郵便を送るときに、「東京都港区~~丁目の・・・さん」のように住所を書くようなものです。これは結構めんどくさいです。
しかし、作業ディレクトリを設定しておけば、その作業ディレクトリを起点とした相対パスを書けば済みます。例えば作業ディレクトリが「Cドライブの中の、R_practiceというフォルダ」であれば、いきなり「practice_1.csv」というファイル名を指定するだけで、そのファイルを特定することができます。
RStudioには「プロジェクト」という機能があり、目的ごとに作業ディレクトリを設定することができます。しかしプロジェクトが指定されていない時は、デフォルトの作業ディレクトリが適用されます。プロジェクトについては今回は説明を省略しますが、本格的にRを使うようになると必須の機能なので、その時に改めて調べてみてください。
Browse...ボタンを押して、任意のフォルダを作業ディレクトリに設定しましょう。ここではCドライブ内に「R_practice」というフォルダを新しく作り、そこをデフォルトの作業ディレクトリに指定しました。
作業ディレクトリは任意の場所で構いませんが、なるべくパスに日本語が入らないようにしたほうが安心です。次に説明するように、文字化けしたら困るので。
文字コードの設定
プログラム内に、日本語でコメントを書き入れることがあると思います。しかし日本語のようにマルチバイト文字を使用する場合、文字コードによっては文字化けが生じる恐れがあります。そこでまず文字コードを設定してしまいましょう。
左側のカラムから「Code」、上部のタブから「Saving」を選び、以下の画面を開きます。Change...ボタンを押すことで、任意の文字コードを指定できます。ここではUTF-8を選びましょう。
”見栄え”の設定
次は好みの問題ですが、好きな見栄えを選びましょう。例えばフォントサイズを変更することが出来ます。
また、RStudio上でRコードを書いた場合は、予約語やコメントに色が付いてハイライトされます。その色のパターンを、Editor themeの中から選ぶことが出来ます。
パッケージをダウンロードするCRANリポジトリの設定
先述のように、Rは次々にパッケージをインストールしていくことによって、その機能を拡張していくことが出来ます。パッケージは、世界中に存在するCRANリポジトリからインターネット経由でダウンロード&インストールすることが出来ます。その都度リポジトリを選ぶことも出来ますが、ここで設定したほうが楽です。
Change...ボタンを押すとリポジトリを変更可能です。日本国内では、以下の機関がCRANリポジトリを管理しているので、いずれかを選ぶと良いでしょう。
- 統計数理研究所(Japan (Tokyo) [https] - The Institute of Statistical Mathematics, Tokyo)
- 山形大学(Japan (Yonezawa) [https] - Yamagata University)
他にも細かい設定を行うことが可能ですが、最低限、以上の設定が終わればよいでしょう。
RStudioの機能
一度RStudioを閉じて、もう一度立ち上げなおしてください。下図の赤枠で囲ったところに、先ほど設定した作業ディレクトリが表示されていることがわかります。
さて、RStudioは上図のように、4つの領域に役割分担されています。それぞれの領域を、ペイン(Pane)と呼びます。各ペインの配置場所は変更可能ですが、ここではデフォルトの配置を前提として説明していきます。
Sourceペイン(左上)
いわゆる、スクリプトを書くところです。実はRStudioは、RもPythonもStanも...様々なプログラミング言語のコードエディタとして機能します。どのような言語であろうと、このSourceペインでスクリプトを書きます。演劇でいうところの、台本だと思ってください。
Sourceペインでは、スクリプトをただ書くだけではなく、任意のコードを即座に実行することが出来ます。実行結果は、次に説明するConsoleペインに表示されます。
コードを実行するためには、以下の操作を実行してください。MacではCtrlではなくCmdキーを使用します。
- 任意の行のコードを実行したい
- その行にカーソルを移動させて、Ctrl + Enter
- 複数行を同時に実行したい
- 複数行を選択したうえでCtrl + Enter
- あるファイル内の全ての行を実行したい
- Ctrl + Shift + Enter
Consoleペイン(左下)
上図を見るとわかるように、Sourceペインと同じコードと、その実行結果が表示されていますね。演劇でいうところの、舞台だと思ってください。
実はConsole上に直接コードを入力し、実行することも出来ます。いわば、台本にない台詞をアドリブで舞台上で披露するようなものです。しかし、分析結果の再現・再生可能性を高めるために、後で参照する可能性があるコードは全て、Sourceペインに記入したほうがよいでしょう。
Environmentペイン、Historyペイン(右上)
これらはタブでペインを切り替えます。Environmentペインには、作成したオブジェクトの一覧が表示されます。
例えば上図では、
a <- 5
b <- 3
により、aというオブジェクトに5を、bというオブジェクトに3を代入しています(後述しますが、Rでは代入演算子として、矢印を示す<-
を使用します)。どのオブジェクトが作成されたか、それにはどのようなデータが入っているかを、Environmentペインで確認できるというわけです。
Historyペインでは、過去に実行したコマンドの履歴が確認できます。
Filesペイン、Plotsペイン、Packagesペイン、Helpペイン、Viewerペイン(右下)
やはりこれらもタブで切り替えます。
- Filesペイン
- 作業ディレクトリ内のファイル一覧が表示されます。ここから任意のファイルを開くことも可能です。
- Plotsペイン
- 作図結果がここに表示されます。
- Packagesペイン
- 新しいパッケージを追加したい場合に、ここから選びます。また、すでにインストールされているパッケージを確認することもできます。
- Helpペイン
- 関数やパッケージ等についてのサポート情報を確認することが出来ます。
- Viewerペイン
- ちょっと特殊な出力(例えばJavaScriptベースのグラフ)が表示されます。
Rの基本的な記法・使用方法
ではいよいよ、コードを書いていきましょう。左上のアイコンを押して、新規ファイルを立ち上げます。ここではRのコードを書いていくので、一番上の「R Script」を選びましょう。このファイルの拡張子は「.R」になります。
四則演算
以下のの演算子を用いることで、四則演算が可能です。割り算の余りを返したい場合の演算子は%%
です。
※注意:以後、Consoleペイン上に表示される結果を表示しています。実際のコードでは冒頭に「>」を入力する必要はありません。
※Rでは、「#」以後に書かれたものはコメントアウトされます。つまり、「#」以後に書いたものは、プログラムのコードとは認識されないため、様々なメモを残すことが可能ということです。
> 5 + 3 #足し算 [1] 8 > 5 - 3 #引き算 [1] 2 > 5 * 3 #掛け算 [1] 15 > 5 / 3 #割り算 [1] 1.666667 > 5 %% 3 #割り算の余り [1] 2
代入演算子
先述のように、Rにおける代入演算子は、矢印を表す<-
です(半角の「<」の後に、半角の「-」を続けて打つ)。この代入演算子の面白いところは、->
のように左右反転させても機能することです。この場合、->
の左側の情報が右側のオブジェクトの中に代入されます(もっとも、この用法はあまりおすすめはしません)。
代入演算子<-
は、Alt + =でショートカット入力させることもできます(+は入力する必要ありません)。
多くのプログラミング言語では、代入演算子は=
ですが、Rでも使用可能です。現在のRではどちらの演算子を用いてもほぼ問題ありません。ごく稀に、<-
でしか機能しない状況が存在するため、そういう意味では常に<-
を使用したほうが汎用的ではあります。
> a <- 5 #aに5を代入 > a #aの中身を表示 [1] 5 > b = 3 #bに3を代入 > b #bの中身を表示 [1] 3 > 7 -> c #cに7を代入 > c #cの中身を表示 [1] 7
なお筆者はここ数年、代入演算子は=
を用いています。Rを教える際に、他の言語(C、Python...)をすでに学んでいる/これから学ぶ学生が混乱しないように配慮していたのですが、いつの間にか筆者自身が=
に慣れてしまいました。しかし特に困ったことはありません。
その他の演算子
Rには非常に多くの演算子があり、すべてをいきなり理解するのは難しいので、徐々に覚えていけばいいと思います。より高度な演算子は、以下のサイトを参考にしてください。
データの型・構造
とてもとてもとてもとても大事なところです。ただし、ここをちゃんと説明しようと思ったらかなり大変なので、参考となるサイトを紹介するにとどめます。ぜひ以下のリンク先を熟読してください。英語のサイトですが、非常に端的にまとまっています。ここを読むのがおすすめです。
日本語で書かれたサイトでは、以下の記事が参考になります。
ベクトルの作成
上記のサイトにも書かれている内容のうち、重要な内容を一部抜粋して説明します。まずはベクトルの作成についてです。
ここではベクトルとは、「複数の情報が並んだもの」くらいの理解で大丈夫です。例えばトランプから無作為に5枚のカードを抜き取ったところ、数字は順に「3, 1, 2, 5, 8」だったとしましょう。これもベクトルです。
Rでは関数c()
によってベクトルを作成します。要素をカンマで区切って並べます。文字列を要素とする場合は、引用符("")で囲う必要がある点に注意です。
> v1 <- c(3, 1, 2, 5, 8) > v1 [1] 3 1 2 5 8 > v2 <- c("abc", "あいう", "123", "春", "-----") > v2 [1] "abc" "あいう" "123" "春" "-----"
ベクトル内の要素にアクセス
あるベクトルの中の、n番目の要素にアクセスするときは、以下のように書きます。
> #1番目(最初)の要素を表示 > v1[1] [1] 3 > # length()でベクトルの要素数を取得 > # 取得した要素数をインデックスにすることで、最後の要素を表示 > v1[length(v1)] [1] 8
ベクトル名の直後に[]
を書いて、その中に数字を入力することで、対応する要素にアクセスすることが出来ます。多くのプログラミング言語では、インデックスは0から始まると思いますが(最初の要素はv1[0]
、2番目の要素はv1[1]
)、Rでは1から始まることに注意が必要です。
matrixの作成
ベクトルが縦、あるいは横にずらっと並んだものが行列(matrix)のイメージです。例えば上で作成した2つのベクトル、v1
とv2
を縦方向に並べてみると...
#rbind()はベクトルを「縦方向」に連結する関数 #各ベクトルは左から右に向かってデータが並ぶ、すなわち「行(row)」になるので、頭文字r > m1 <- rbind(v1, v2) > m1 [,1] [,2] [,3] [,4] [,5] v1 "3" "1" "2" "5" "8" v2 "abc" "あいう" "123" "春" "-----"
横方向に並べてみると...
#cbind()はベクトルを「横方向」に連結する関数 #各ベクトルは上から下に向かってデータが並ぶ、すなわち「列(column)」になるので、頭文字c > m2 <- cbind(v1, v2) > m2 v1 v2 [1,] "3" "abc" [2,] "1" "あいう" [3,] "2" "123" [4,] "5" "春" [5,] "8" "-----"
いずれの場合も、個々のベクトルの行数、または列数が等しくないと連結できないことに注意してください。
> m3 <- cbind(c(1, 2, 3), c(4, 5, 6, 7, 8) ) 警告メッセージ: cbind(c(1, 2, 3), c(4, 5, 6, 7, 8)) で: number of rows of result is not a multiple of vector length (arg 1)
matrixの要素にアクセスする
matrixには行と列が存在するため、ある要素にアクセスしたい場合には、行番号と列番号をそれぞれ指定する必要があります。例えば上で作成した、m2
というmatrixから「春」というデータを参照したい場合には、以下のように書きます。[行番号, 列番号]
という順番であることに注意してください。
> m2[4, 2] v2 "春"
また、特定の行番号だけ、あるいは特定の列番号だけを指定すれば、該当するベクトルを参照することも出来ます。
> # 2行目だけ取得。カンマの右側が空白であることに注意 > m2[2,] v1 v2 "1" "あいう" > # 1列目だけ取得。カンマの左側が空白であることに注意 > m2[,1] [1] "3" "1" "2" "5" "8"
さらに、c()
によって複数の行番号や列番号を指定することもできます。
> # 3行目と5行目だけを取得 > m2[c(3, 5),] v1 v2 [1,] "2" "123" [2,] "8" "-----"
data.frameの作成
matrixは、複数のベクトルが縦方向または横方向にずらっと並び、長方形の形になったものですが、Rでは同じ形をしているデータフレーム(data.frame)というクラスもあります。Rでは、データをdata.frameクラスにしたうえで扱うことが多いです。
data.frame()
関数に複数のベクトルを与えると、data.frameを作成することが出来ます。
> df1 <- data.frame(v1, v2 = c("a", "b", "c", "d", "e"), v3 = 10:14) #c(10, 11, 12, 13, 14)に等しい > df1 v1 v2 v3 1 3 a 10 2 1 b 11 3 2 c 12 4 5 d 13 5 8 e 14
ここで、ベクトルv1
はすでに作成していたものを利用しています。v2
とv3
は新たに作成したベクトルです。作成されたdata.frameでは、個々のベクトルに名前が与えられ(列名)、上から下にデータが並んでいます。
あたかも、cbind()
でベクトルを結合した場合と同じように見えますが、クラスは異なります。
> class(m2) [1] "matrix" > class(df1) [1] "data.frame"
data.frameでもmatrixと同様に、行番号や列番号を指定することで、要素にアクセスすることが出来ます。さらにdata.frameでは列名が存在するので(もしdata.frame作成時に列名を明示しなかった場合には、適当な列名がつけられます)、列名を明示して特定の要素にアクセスすることもできます。
例えば上で作成したdf1
というdata.frameで、v1
列をごっそり抽出したかったら、data.frame名$列名と書きます。
> df1$v1 [1] 3 1 2 5 8
これはベクトルとして抽出されているので、さらにベクトル内の位置を指定することで、該当する要素にアクセスできます。
> df1$v1[3] [1] 2
パッケージのインストールと読み込み
インストール
PackagesペインのInstallボタンを押すと...
下図(左)のウィンドウが現れます。インストールしたいパッケージ名を入力すると、候補が現れるので、適切なパッケージを選びましょう。ここでは、データの要約や因子分析や媒介分析や...とにかく様々なことが可能になる便利なパッケージ、「psychパッケージ」をインストールしてみます。Installボタンを押すとインストールが開始されます。
あるいは以下のようにinstall.packages()
関数を用いて、コードによりインストールするパッケージを指定することも出来ます。
install.packages("psych")
一度パッケージをインストールすれば、Rのバージョンが変わらない限り(つまり別のバージョンのRを再インストールしない限り)、そのPCでは同じパッケージをインストールする必要はありません。
ただし、パッケージによっては開発が続けられており、バージョンアップが行われることがあります。もし最新版のパッケージがCRAN上で配布されていれば、再び上記の手続きをとることにより、最新版のパッケージをインストールすることが出来ます。
「もし最新版のパッケージがCRAN上で配布されていれば」というところがポイントで、パッケージによっては、最新版が現時点ではCRANにまだ登録されていなかったり(いずれは登録されるようになるでしょう)、そもそもパッケージ自体がCRANに登録されていなかったりすることがあります。よくあるのは、「GitHub上ではパッケージが公開されているけれど、CRANには(まだ)登録されていない」というケースです。
その場合、
- devtoolsというパッケージをインストールして、GitHubからパッケージをインストールする機能をRに拡張させる(すでにdevtoolsパッケージをインストール済みならこの手順は省略可)
- devtoolsパッケージの関数を用いて、GitHubから、本来インストールしたいパッケージをインストールする
という手順になります。
例えばggplot2というパッケージは、CRANに登録されていますが、開発中のバージョンはGitHubから直接インストールすることが出来ます(install_github()
の中は、当然パッケージごとに異なるパスを書く必要があります)。
# install.packages("devtools") devtools::install_github("tidyverse/ggplot2")
ほとんどの場合は上記のようなコードがパッケージの公式ページに記載されているはずなので、コピペすればOKです。
パッケージの読み込み
さて、パッケージはポケモンで言うところの「わざマシン」のように、後付けでRの機能を拡張するための道具だと説明しました。ただし「わざマシン」と違うところがあります。それは、パッケージは使うたびに読み込みが必要というところです。
「わざマシン」であれば、ひとたびピカチュウに「ねむる」のわざを覚えさせると、ポケモンセンターに寄ろうが、パーティーメンバーから外そうが、バトルで倒れようが、覚えたわざを使い続けることが出来ます。
しかしパッケージは、Rのセッションを立ち上げるたびに(Rを起動するたびに)、パッケージを読み込みなおす必要があります。インストールではありません。パッケージをそのセッション内で使用する場合は、読み込みが必要ということです。
例えば、psychパッケージには、ある量的変数に関する様々な要約統計量を計算してくれる、describe()
という関数があります。この関数を、mtcars$mpg
という変数に適用してみましょう。
> describe(mtcars$mpg) describe(mtcars$mpg) でエラー: 関数 "describe" を見つけることができませんでした
できひんのかーい。
それもそのはず。このRセッションでは、まだpsychパッケージを読み込んでいなかったからです。R側からすると、「describe()
...?いえ、知らない関数ですね」ということになります。
ではパッケージを読み込みましょう。それには、library()
という関数を用います。
> library(psych) > describe(mtcars$mpg) vars n mean sd median trimmed mad min max range skew kurtosis se X1 1 32 20.09 6.03 19.2 19.7 5.41 10.4 33.9 23.5 0.61 -0.37 1.07
パッケージを読み込みさえすれば、ちゃんとそのパッケージ内の関数を使えるようになりますね。
さて、ここで注意があります(次に述べることは筆者個人の意見です)。それは、Rにデフォルトで備わっている関数ではなく、パッケージ内の関数を用いる場合は、その関数がどのパッケージの関数かを常に明示すべきということです。
なぜかというと、プログラムのコードは、自分一人が見るものではなく、多くの場合は「今の自分以外」と共有するからです。「今の自分以外」には、他者も、「数年後の自分」も含まれます。
上記の例では、「describe()
という関数が、psychパッケージの関数であることを知らない人」がいたら、混乱することでしょう。そこで、筆者はどのような関数であれ、パッケージ内の関数を使用する場合は、以下のように書くことを自分ルールとしています。
> library(psych) > psych::describe(mtcars$mpg) vars n mean sd median trimmed mad min max range skew kurtosis se X1 1 32 20.09 6.03 19.2 19.7 5.41 10.4 33.9 23.5 0.61 -0.37 1.07
違いがわかるでしょうか。psych::describe(mtcars$mpg)
と、関数名の前にパッケージ名を明記した点だけが違います。Rではこのように、パッケージ名を明記する場合は、「パッケージ名::パッケージ内の関数」と書きます(半角のコロン2つ)。
これには別の利点もあります。Rでは、複数のパッケージが、同じ名前の関数を持っていることがあります。例えば、psychパッケージは、psych::mediate()
という関数を持っていますが、別のmediationパッケージも、mediation::mediate()
という関数を持っています。
関数名しか書かなかったとしたら、どちらのパッケージのmediate()
関数なのか、区別がつきません。
外部ファイルの読み込み
csvファイルの読み込み
Rで解析をする際に、実験データなどがまとめられたファイルをRに読み込むことが多いでしょう。外部ファイルを読み込むための関数は、そのファイルがどのような形式でデータをまとめているかによって変わります。
典型的には、csvファイルとしてまとめられていることが多いと思います。csvとはComma Separated Valueの略で、下図のようにカンマでデータが区切られた、テキスト形式のファイルです。
Excelでデータをまとめている場合にも、「名前を付けて保存」する際に、「ファイルの種類」をcsvに変更すれば、csvファイルとして保存されます(拡張子が.csv
になっていることを確認してください)。
csvファイルを読み込む方法は、主に2つです。
一つ目は、EnvironmentペインのImport Datasetボタンから「From Text」を選択し、GUIにより読み込む方法です。「From Text」には以下の2つがあります。
- From Text (base)
- デフォルトで使用可能な
read.csv()
関数によってデータを読み込む
- デフォルトで使用可能な
- From Text (readr)
readr
パッケージのread_csv()
関数によってデータを読み込む
どちらを使うのが良いかは話すと長くなるので、ここでは割愛します。もし数値だけが格納されたデータセットを読み込むのならば、どちらでも構わないと思います。
二つ目の方法は、直接read.csv()
やreadr::read_csv()
という関数をエディタやコンソール上で実行することです。実は上記のGUIを用いた場合にも、結局これらの関数が実行されることになります。
tmp <- read.csv("C:/R_practice/sample_data.csv")
注意してほしいことは、原則的に、読み込むデータセットは、長方形でなければならないということです。つまり、列によって行数が違うような凸凹したデータセットは読み込めないということです。
原則的に、と書いたのは、凸凹したデータセットでも読み込む方法があるからです。
例えば、データがこんな風にまとめられていたとしましょう。
このデータセットは、以下の悩ましい問題を含んでいます。
- 1行目に、1セルだけ、分析とは関係ない情報(記録日時)が掲載されている
- 2行目が空白
Score
の列に空白のセルがある
でも大丈夫。外部ファイルを読み込むための関数には、データを柔軟に読み込むための様々な引数が存在するのです。
tmp <- read.csv("C:/R_practice/sample_data.csv", skip = 2, na.strings = "", header = TRUE) > tmp ID Age Score 1 1 25 80 2 2 30 NA 3 3 22 68
うまく読み込むことができました。それぞれの引数を説明します。
skip = 2
- 上から何行を無視するかを決めることができます。今回は、2行目までを無視しました。
na.strings = ""
- データが存在しないセルを、Rでは
NA
で表します。どのようなデータをNA
とみなすかを指定できます。 - 今回は空白のセルを
NA
としたかったので、引用符の中に何も記述しませんでした。 - もしデータが欠測していたセルを
.
で表していたなら、na.strings = "."
とすればよいです。
- データが存在しないセルを、Rでは
header = TRUE
- 読み込む対象の範囲のうち、一番上の行をヘッダ(列名)とみなすか、データの一部とみなすか、を指定できます。
- もし一番上の行がいきなりデータから始まっていたら、
header = FALSE
としましょう。
他にも色々と引数があります。
Excelファイルの読み込み
readxl
パッケージのread_excel()
という関数によって、Excelファイル(拡張子が.xlsx
など)を読み込むことも出来るようになりました。直接この関数をエディタやコンソール上で打ち込んでもいいし、やはりGUIも用意されています。
readxl::read_excel()
の引数は、read.csv()
やreadr::read_csv()
とはちょっと異なっています。詳しくはコンソール上で?readxl::read_excel
と入力して、ヘルプを確認してください。
あ、そうそう。このように、?
の後ろに関数名を書くと、RStudioの右下にあるHelpペインに解説が表示されます。積極的に活用してください。
おまけ:データ構造の確認
自分でdata.frameなどを作成する場合には、どのようなデータを扱っているか(特に、数値か文字列か)について把握しやすいですが、外部からデータを読み込んだ場合は、本当に自分が想定するデータの構造になっているか、確認することが必須です。というか常に確認してください。
例えば、lme4
というパッケージを読み込むと参照できるようになる、sleepstudy
というデータセットがあります。これは、睡眠時間が削られることで、刺激に対する反応時間がどう変化していくかを記録したデータセットです。以下の通り3列が存在し、いずれも数値が格納されているように見えます。
> #install.packages("lme4") > library(lme4) > data(lme4::sleepstudy) > head(lme4::sleepstudy) #data.frameの冒頭6行だけ表示する Reaction Days Subject 1 249.5600 0 308 2 258.7047 1 308 3 250.8006 2 308 4 321.4398 3 308 5 356.8519 4 308 6 414.6901 5 308
ここでstr()
という関数を用いて、データ構造(structure)を確認してみましょう。
> str(lme4::sleepstudy) 'data.frame': 180 obs. of 3 variables: $ Reaction: num 250 259 251 321 357 ... $ Days : num 0 1 2 3 4 5 6 7 8 9 ... $ Subject : Factor w/ 18 levels "308","309","310",..: 1 1 1 1 1 1 1 1 1 1 ...
反応時間を表すReaction
や、実験経過日数を示すDays
には、numと書かれています。本記事ではデータの型や構造について説明を省略したので、何のことかわからないかもしれませんが、要は「数値」と見なされているということです。numはnumericの略です。
一方、実験参加者のID番号を示す、Subject
には、Factorと書かれています。よく見ると、"308", "309", "310",...
と、各数字が引用符で囲われていますね。すなわち、見た目は数値であっても、これらは文字列のように見なされているということです。
このようなデータ構造をしっかりと確認しないと、分析時などに思わぬミスにつながります。特に外部ファイルを読み込んだ場合や、他者が作ったデータセットを使用する場合は、必ずstr()
でデータ構造を確認するようにしてください。
おわりに
他にも書きたいことは山ほどありますが、キリがないのでこのあたりにします。あくまで今回の記事の目的は、「まったくRを触ったことが無い人に、事前に読んできてもらう資料」を作成することでした。これらを踏まえたうえで、他の基本的な機能や、より発展的な機能を勉強していただければ幸いです。
Enjoy!
「RとStanではじめる ベイズ統計モデリングによるデータ分析入門」書評
この記事について
著者の馬場真哉様より、2019年7月10日に講談社より発売の、「RとStanではじめる ベイズ統計モデリングによるデータ分析入門」をご恵投いただきました。ありがとうございます!!
事前に献本をいただけるということを伺っていたので、その時から「ご恵投いただきました!」とTwitterで報告するだけでなく、簡単にでも読んでみた感想を書こうと決めていました。
まだざっと読んだ段階で、コードを実際に走らせてもいないのですが(もちろん後でじっくり読みながら実行します)、感想や関連書籍との比較をしていきたいと思います。
本記事の方針
本書の「はじめに」の部分やサポートページには、以下のような方を対象読者としていると書かれています。本記事も、そのことを念頭に書いていこうと思います。
統計学の基礎やベイズの定理などの基本事項を学んでみたものの、その有効性がピンとこない、という方を対象としています。
例えば、ベイズの定理の導出では終わらない、より実用的なベイズ統計学について学んでみたいと思った方、あるいは統計モデリングに興味が出てきた方は、本書の対象読者であるといえます。理系文系は問わず、データを分析する必要性がある人はもちろん、データサイエンスが専門でないエンジニアの方でも読めるような内容を目指して執筆しました。逆に、R やStanを使ったベイズ統計モデリングにすでに明るいという方は、読者として想定していません。ベイズ統計学の数理的な側面もある程度省略しました。基本的な事項を、実装を何度も繰り返すことを通じて学ぶ構成になっています。
ベイズ統計モデリングの上級者をさらなる高みへと持っていく本ではないことに、留意してください。
また、RとStanでベイズ統計モデリングを行う入門書というと、真っ先に頭に浮かぶのが、松浦健太郎著「StanとRでベイズ統計モデリング(通称、アヒル本)」だと思います。僕自身も、恐らく人生で最も読み返した回数が多い本ではないかと思うくらい、お世話になっています。ページをめくったり書き込みしたりでボロボロになってきたので、最近2冊目を買いました。
それぞれの本の強みを紹介するため、要所要所で、アヒル本と本書を比較していこうと思います。そのため本記事の想定読者も、アヒル本を一度読んだことがある人、としています。
なお結論を先取りすると、それぞれの本で強調されている点が異なるので、両方読むといいと思います!ということになります。
第1部:【理論編】ベイズ統計モデリングの基本
本書第1部では、ベイズ統計モデリングとは何かや、それを行う上で必要となる数学的基礎知識について紹介しています。特に、ベイズ統計モデリングが基礎としている「確率」について、紙面が割かれています。
これらの基礎的なパートについては、本書とアヒル本で「力を入れている」箇所が異なるように思いました。
アヒル本
アヒル本では、確率、確率密度関数、確率質量関数、尤度などについては、ある程度背景知識を持っていることを前提として説明が進むように思います。もちろん一通り説明はあるのですが、(初心者にとっては)難しい言葉もしばしば登場します。
その代わり、モデル、確率モデル、統計モデルとは何か。そもそもなぜこれらを考える意義があるのか、といったところは紙面が割かれていて、統計モデリングに対する著者の熱い思いを感じます。「いいからMCMCだ!」ではなく、その前にすべきこと(例えばメカニズムの想像)について、慎重に指南してくれる本です。
また、アヒル本では1章まるまる使って、様々な確率分布を丁寧に紹介しているパートがあります。正規分布、ポアソン分布、二項分布などの「メジャーな」確率分布はもちろんのこと、カテゴリカル分布やディリクレ分布、多変量正規分布など、発展的なモデルを考える際にお世話になる分布についても、網羅しています。
アヒル本では、基本的な部分を順を追って丁寧に説明することを重視しているものの、基礎を身に着けた読者が自身の発想でモデリングできるよう、その先の道しるべも用意してくれているような印象を持っています。
本書
本書では、アヒル本よりもより初心者を想定しているように思います。そのため確率、確率密度関数、確率質量関数、尤度などについて、この本を読みながら知識を得ていくことが可能です。馬場さんが過去に書かれた「Pythonで学ぶあたらしい統計学の教科書」でもこのあたりは言及されています。
紹介されている確率分布も、正規分布、ベルヌーイ分布、二項分布、ポアソン分布、一様分布といった「メジャーな」ものに限定されており、より初心者にフォーカスした説明を意識されているのかなと思いました。
第2部:RとStanによるデータ分析
第2部は本書の特徴的なパートだと思います。「RとStan」でベイズ統計モデリングを行う際に必要となるRの基礎や、使用するパッケージの記法について、紹介しています。
アヒル本
アヒル本では、Rの利用方法については特に説明はなく、外部パッケージも極力使わない方針で解説されています。可視化において大活躍するggplot2パッケージは、rstanパッケージ自体が依存しているのでアヒル本でも活用されていますが、その記法は説明されていません。その代わりStanやrstanの説明に注力している感じです。
説明の順序についても、書籍間で違いがあります。アヒル本では、ページをめくるたびに、一つずつ技術を身に着けていくような説明の仕方になっている気がします。
例えばモデルの評価方法の一つである事後予測チェックは、アヒル本では簡単なモデルのパラメータ推定ができるようになった後で言及されます。
まずmodelブロックまで一通り書けるようになることを目指し、その次にgenerated quantitiesブロックの説明をする中で、事後予測チェックの方法を紹介しています(generated quantitiesブロック内で乱数を発生させる、という技術)。
本書
RからStanにデータを渡すためには、それなりにRのテクニックが必要になります。例えばlistであったり、データの型であったり。本書では最初にRの主要な機能を解説しているため、初めてRを触る人であっても問題ありません。
さらに本書は積極的に拡張パッケージを活用する方針のため、簡単ではありますがggplot2の記法を解説しています。またそれだけでなく、MCMCの結果を可視化する際にbayesplotパッケージも活用し、その使用方法も説明しています。例えば診断の類はbayesplot等の拡張パッケージに任せてしまうため、まだgenerated quantitiesブロックの話が出てきていない段階で、事後予測チェックの話が出てきます(もちろんその後でgenerated quantitiesブロックの説明も出てきます)。
※2019/7/9追記:すいません見落としていましたが、generated quantitiesブロックの中でモデルに従う乱数を生成する方法も載っていました(136ページ目)
ちなみに手前味噌になりますが、bayesplotパッケージについては、以前本ブログで記事を書いたのでご参照ください。
個人的には、bayesplotについて本書で紹介しているのは、かなり重要なポイントだと思います。診断は非常に大事な手続きだと思うのですが、診断に必要な手続きが複雑であれば、「めんどくさい」と思ってスキップしてしまうかもしれません。
実際のところ、診断の観点は様々あるのでこれ自体容易ではないのですが、少なくとも「視覚的に」診断するうえで、bayesplotはユーザの負荷を大きく下げてくれます。
第3部:一般化線形モデル
アヒル本
アヒル本では、データやパラメータをint型やreal型で宣言し、modelブロック内でforループを用いて書くシンプルな記法から始め、けっこう長い間この記法を使い続けます。ベクトルや行列を用いた書き方が登場するのは、全12章中、9章目と遅めです。
恐らくこれは、繰り返すように、「少しずつ技術を身に着けていく」ことを狙っているからではないかと思います。
本書
一方本書では、第2部でStanの基本的な記法を簡潔に紹介したのち、第3部の実践編ではいきなりベクトル・行列を活用した記法に切り替わります。説明が丁寧なので問題ないのですが、不慣れな人はここでちょっと段差が高くなった印象を受けるかもしれません。
brmsパッケージ
本書の最大の特徴と言っても過言ではないのが、brmsパッケージの活用です。brmsパッケージを用いると、ユーザ自身がStanコードを書く必要なく、シンプルな記法で線形モデルのパラメータ推定を実現することができます。
なお本ブログでも以前に記事を書いたので、ご参照ください。
このbrmsを活用したパートは、本当に現時点では稀有だと思います。僕自身が↑のブログ記事を書いたモチベーションの一つも、日本語のチュートリアル記事がほとんどないということでした。少なくとも現時点では、brmsパッケージの使用方法を事例とともにここまで丁寧に説明した和書は、他にないのではないかと思います(僕が知らないだけかもしれませんが...)。
本書第3部では、分散分析モデルやGLMの推定をbrmsパッケージに思い切って任せてしまうことで、Stanコード自体の説明はアヒル本より少なくなるけれど、そのぶん結果の可視化も含めて様々なケースを紹介しています。
特に、交互作用について独立した節を作って事例を紹介しているのは、まさに痒い所に手が届くという感じです。
第4部:一般化線形混合モデル
アヒル本
アヒル本では、階層モデルについて、「階層という発想を導入する必要性」やStanコードの書き方も含め、詳しく説明されています。Stanでは、階層モデルはよりシンプルなモデルの自然な拡張として書けるうえ、実用的機会が多いため習得することが重要だと思います。
僕自身、アヒル本を読んで初めて、「そういうことだったのか!」と目の前の霧が晴れたように理解できた部分が多かったです。
本書
一方本書では、意外なことに紙面が少ないです。それは、brmsを用いることで、階層モデル(ここでは一般化線形混合モデル)も極めて簡単に推定できてしまえるからです(lmerやlmerTestとほぼ同じ記法で書けます)。もちろんランダム切片モデルとかランダム係数モデルについての説明もあるのですが、アヒル本と対比すると説明はシンプルです。
第5部:状態空間モデル
出ました!という感じです。なにせ馬場さんといえば、時系列分析に特化した書籍、「時系列分析と状態空間モデルの基礎:RとStanで学ぶ理論と実装」の著者なのですから。
アヒル本でも状態空間モデルについて非常に分かりやすく解説されているのですが、本書では第5部がまるまる時系列データの分析に割かれています。
その代わりアヒル本では、混合分布モデルや、空間構造データを用いたモデリングなど、異なる観点で詳しくモデリング事例を紹介しています。
まとめ
冒頭にも書いた通り、アヒル本と本書は、狙いが恐らく異なっており、それぞれ強調されているポイントが違うので、両方読めば様々なケースに対応できるようになるのではないかと思いました。
あくまで僕の勝手な推測ですが、
アヒル本は、ユーザが自由なモデリングをすることを支援しているように思いました。そのために、Stanの記法について丁寧に解説し、収束しなかった場合の対処やトラブルシューティング、打ち切りや外れ値への対処、階層モデルという発想、離散パラメータを扱うテクニックなど、上級者へ至るためにいつかは通らなければならないポイントを、あらかじめ道しるべとして残していてくれているように思います。
世の中にはこういうモデルがあるんだよ、ユーザは必要なモデルを選べばいいよ、ではなく、君は君らしくモデリングする自由があるんだ(以下略)という印象です。
一方本書でも、もちろんユーザのモデリングを支援しているのですが、恐らく本書の想定読者は、アヒル本よりも初心者寄りであることから、様々なモデリングの事例をメニューとして用意してあげて、それらを導入するハードルを下げてやろう、そのためにbrmsやbayesplotなどの便利なパッケージもどんどん紹介していこう、という狙いなのかなあと思いました。
どちらか1冊読めば全方位に対応できる、ということではなく、それぞれの本が異なる強みを持っているので、これから初めて勉強する人も、すでにある程度触れている人も、両者を行き来することでさらにもう一段高みへ上れるのではないかと思います。
駆け足で読んだ段階なので、まだ見落としている部分があるかもしれません。もしかしたら今後追記するかもしれませんが、ひとまず感想まで。
ggplot2でヒストグラムを描くときに外枠だけに線を引きたい
タイトルの通り、「ggplot2でヒストグラムを描くときに外枠だけ線を引きたい」という質問を受けました。図にすると以下のような状況です。
枠線を付けたいときにパッと思いつくのは、引数colour
を指定することですが、そうすると下図・右のようになってしまいます。
library(ggplot2) bw <- diff(range(faithful$waiting))/20 # 左図 ------------------------------------------------- ggplot(data = faithful, mapping = aes(x = waiting)) + geom_histogram(binwidth = bw, fill = "skyblue") + labs(title = "通常のヒストグラム") # 右図 ------------------------------------------------- ggplot(data = faithful, mapping = aes(x = waiting)) + geom_histogram(binwidth = bw, fill = "skyblue", colour = "darkblue") + labs(title = "全ての棒に枠線を付けたヒストグラム")
で、どうやるんだろうと調べてみました。安直に「ggplot2 histogram only outline」というググり方をしましたが、幸いにもすぐにヒットしました。ggplot2の調べ物は英語でググるのが吉です。
参考:can I draw a histogram that has an outline around the entire shape, but not the individual bars?
ヒストグラムを描くときに、Y軸にマッピングする変数を省略するのではなく、mapping = aes(y = ..density..)
としてkernel density estimateをマッピングすることを明示したうえで、geom_step()
を用いてヒストグラムの輪郭だけを描くんですね。
あとはヒストグラムのレイヤを重ねてやれば、見た目上は外枠だけに線が描かれたように見えるはずです。
ただし注意が必要なのは、ヒストグラムはY軸が度数(count)である点です。そこで以下のページを参考に、ひと工夫します。ポイントは、geom_step(mapping = eval(bquote(aes(y=..count..)))
というところです。
参考:データのhistogramと確率密度関数を同時に描きたい
勝った、第3部完!
dens <- density(faithful$waiting) bw <- diff(range(faithful$waiting))/20 ggplot(data = faithful, mapping = aes(x = waiting)) + geom_histogram(binwidth = bw, fill = "skyblue") + geom_step(mapping = eval(bquote(aes(y=..count..))), stat = "bin", binwidth = bw, colour = "darkblue") + xlim(range(dens$x))
ずれとるやんけ!
考えてみたらそりゃそうで、geom_step()
が描く線の始点は、各階級幅の中央になるので、階級幅の半分だけずれることになります。仕方がないので、引数position
をいじって、X軸のずれを補正します。
dens <- density(faithful$waiting) bw <- diff(range(faithful$waiting))/20 ggplot(data = faithful, mapping = aes(x = waiting)) + geom_histogram(binwidth = bw, fill = "skyblue") + geom_step(mapping = eval(bquote(aes(y=..count..))), stat = "bin", binwidth = bw, position = position_nudge(x = -bw/2), #←階級幅の半分だけ左にずらしている colour = "darkblue") + xlim(range(dens$x))
完成。
ただWarning messages出てるんですよね...。うーん、もうちょっと改善の余地がありそうです。もしもっと適切な方法があれば教えていただけたら嬉しいです。
Warning messages: 1: Removed 2 rows containing missing values (geom_bar). 2: Removed 1 rows containing missing values (geom_path).
追記:
atusyさん(@Atushi776)から、「stat_bin()
を使うとよい & 引数pad = TRUE
を書くとよい」とご提案いただきました。ありがとうございます! 確かにこちらのほうがシンプルで良いですね。そしてWarning messagesも出ない!
bw <- diff(range(faithful$waiting))/20 ggplot(data = faithful, mapping = aes(x = waiting)) + geom_histogram(binwidth = bw, fill = "skyblue") + stat_bin(binwidth = bw, colour = "darkblue", geom = "step", position = position_nudge(x = -bw / 2), pad = TRUE)
Enjoy !
brmsパッケージを用いたベイズモデリング入門
はじめに
本記事は、Stan Advent Calendar 2018 16日目の記事です。brmsパッケージを用いたモデリングの方法や、便利機能、ちょっとしたtipsを紹介します。
brmsパッケージのコンセプトは、
ベイズで(Bayesian)、回帰モデルを(Regression Model)、扱おう、 Stanを使って(using Stan)
です。
読み方はそのまま「ビー・アール・エム・エス」です(僕は勝手にブラムスと呼んでいますが)。
その名の通り、Stanのラッパーパッケージですが、ユーザは自身でStanコードを書く必要はなく、モデルを指定すると自動的に内部でStanコードが生成され、サンプリングが実行されます。
最近は、brmsを用いて分析した論文も見かけるようになってきました。例えば難波修史さんのこの論文とか
- Dynamic Displays Enhance the Ability to Discriminate Genuine and Posed Facial Expressions of Emotion
僕もたまに使っているのですが、あまりにも多機能なので、しっかりと把握できていない部分も多いです。もし本記事に間違いがあればご指摘いただければ幸いです。
brmsパッケージの良いところ
その1
回帰モデルと一言でいっても、実はその守備範囲はかなり広いです。線形モデルも非線形モデルも、その気になればSEMもできるそうです(それならblavaanでいいと思いますが)。
- 一般線形モデル
- 一般化線形モデル
- 階層線形モデル
- その他の自由なモデリング
嬉しいのは、上記の1~3は、多くのRユーザが慣れ親しんでいるであろう記法と同じ記法でモデルを指定できることです。 例えば
- 回帰モデルでは
lm(y ~ x, data = dat)
- ポアソン回帰モデルでは
glm(y ~ x, family = "poisson", data = dat)
- 階層線形モデルではlme4パッケージやlmerTestパッケ―ジを用いて、
lme4::lmer(y ~ x + (1 | group), data = dat)
lme4::glmer(y ~ x + (1 | group), family = "poisson", data = dat)
のように書きますよね。brmsパッケージでも、記法はほぼ同じになります。
その2
デフォルトで用意されている確率分布が、ものっっっっっっっすごく多いです。コンソールで
?brms::brmsfamily
と入力してみてください。用意されている確率分布の一覧が確認できます。 驚くのは、「ベルヌーイ分布とポアソン分布の混合分布である、ゼロ過剰ポアソン分布」等、異なる確率分布を組み合わせた、いわゆる混合分布も多く用意されていることです。通常、このような混合分布を用いたモデリングをStanで書くにはひと手間要るのですが、brmsパッケージでは確率分布を指定するだけで済みます。
また、様々な確率分布からの乱数を生成するための関数や...
確率(密度)を返す関数も用意されています。
その3
「内部で何をやっているのか」を知ることができます。
ベイズを用いる際に最も気になることの一つが、事前分布の設定でしょう。brmsでは、brms::get_prior()
で指定したモデルの事前分布を知ることができます。brmsがデフォルトで採用している事前分布も分かるので、報告時に困ることはありません。
また、brms::make_stancode()
で指定したモデルのStanコードを出力させることもできます。「この確率分布を使ったモデルをStanで書きたいとき、どうすればいいんだろう」と悩んだとき、brmsで同じ確率分布を使った適当なモデルでStanコードを出力させて、「なるほど、こう書けばいいのか」とヒントを得ることも可能です。
僕が驚いたのが、brms流のガンマ回帰の書き方です。parametersブロックと、modelブロックの一部を以下に抜粋します(事前分布のコードは省略しています)。
parameters { vector[Kc] b; // population-level effects real temp_Intercept; // temporary intercept real<lower=0> shape; // shape parameter } model { vector[N] mu = temp_Intercept + Xc * b; for (n in 1:N) { mu[n] = shape * exp(-(mu[n])); } target += gamma_lpdf(Y | shape, mu); }
modelブロックでは、まず切片と説明変数の線形結合をmu
に代入しています。
ガンマ分布にはshape
とrate
、2つのパラメータがあり、平均はshape/rate
になります。brmsではガンマ回帰におけるデフォルトのリンク関数は対数リンク関数(つまり逆リンク関数は指数関数)なので、exp(mu) = shape/rate
の関係があります。
これを変形すると、rate = shape * exp(-mu)
になります。
ところがparametersブロックではrate
に相当するパラメータはそもそも宣言しておらず、一度別の用途で使ったmu
という変数を再利用して上書きしています。あたかも、「もともとのmu
には興味ないでしょ」と言わんばかりに。
さらには、そのmu
はmodelブロック内で宣言されているため、最終的にrate
(に相当する)パラメータを取り出すことができません。なかなか思い切ったことをするなあと思ったのですが、こんな風にbrmsはサンプリング効率を高めるようなStanコードの書き方をしているため、推定がかなり速いです。
その4
他のパッケージとの連携が充実しています。
例えばbrmsはbayesplotパッケージを利用して、brms::pp_check()
という関数により、容易に事後予測チェックを行うことができます(詳しくはこちら)。
その他にも、bridgesamplingパッケージを利用してbayes factorを容易に計算できたり、欠測値がある場合にmiceパッケージで多重代入法による補完を行ったあとで、補完したそれぞれのデータセットからサンプリングを行えたりします(詳しくはこちらから)。
brmsパッケージの使用例
それではさっそく、使用例を紹介していきましょう。
インストール & ロード
brmsはCRANに登録されているので、以下でOKです。なお本稿執筆時点における最新バージョンは2.6.0です。
install.packages("brms") library(brms)
上述のbayesplotパッケージやbridgesamplingパッケージ、それからStanをRから扱うためのrstanパッケージを含む、種々の依存パッケージが一緒にインストールされます。便利なものも多いので、初めてStanを使う人は、brmsをCRANからインストールするのが一番楽な気がします (Rtoolsは別途インストールする必要があります)。
2018/12/19追記:
記事を書いた直後にバージョン2.7.0にアップデートされました。"extending support for Gaussian processes"ですって...
一般線形モデル(回帰分析)
まずはベーシックな回帰分析をやってみましょう。サンプルデータは、プリセットのmtcars
です。32台の車の性能が収められたデータセットになります。
head(mtcars) mpg cyl disp hp drat wt qsec vs am gear carb Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4 Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4 Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1 Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1 Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2 Valiant 18.1 6 225 105 2.76 3.460 20.22 1 0 3 1
モデルの指定
燃費(mpg)を、車体重量(wt)とマニュアル車かオートマ車か(am)で予測する重回帰分析を試みます。mtcars$am
には0か1が格納されていますが、今回はこれらをfactor型に変換したうえで、交互作用項を含むモデルを指定することにします。
mtcars$am <- as.factor(mtcars$am)
stats::lm()
を用いると以下のように書きますが...
fit <- lm(mpg ~ wt * am, data = mtcars) summary(fit)
brmsでは、どのようなモデルであっても、統一的にbrm()
という関数のなかでモデルを指定します。もちろん、rstan::sampling()
でサンプリングする際に指定するような諸々の引数も、brm()
は対応しています。例えば、サンプリング回数(iter
)、ウォームアップ期間(warmup
)、乱数のシード(seed
)、チェイン数(chain
)など。
fit <- brm(mpg ~ wt * am, data = mtcars, iter = 2000, warmup = 1000, seed = 1234, chain = 4) summary(fit) Family: gaussian Links: mu = identity; sigma = identity Formula: mpg ~ wt * am Data: mtcars (Number of observations: 32) Samples: 4 chains, each with iter = 2000; warmup = 1000; thin = 1; total post-warmup samples = 4000 Population-Level Effects: Estimate Est.Error l-95% CI u-95% CI Eff.Sample Rhat Intercept 31.42 3.17 24.90 37.59 2139 1.00 wt -3.79 0.82 -5.37 -2.11 2150 1.00 am1 14.96 4.39 6.66 23.68 1682 1.00 wt:am1 -5.34 1.48 -8.37 -2.50 1828 1.00 Family Specific Parameters: Estimate Est.Error l-95% CI u-95% CI Eff.Sample Rhat sigma 2.72 0.41 2.09 3.61 1774 1.00 Samples were drawn using sampling(NUTS). For each parameter, Eff.Sample is a crude measure of effective sample size, and Rhat is the potential scale reduction factor on split chains (at convergence, Rhat = 1).
また、サンプリング結果を格納したオブジェクトをsummary()
に入れると要約された結果が返されますが、brms::waic()
やbrms::loo()
に入れると、WAICやlooを計算することもできます(内部ではlooパッケージを使用して計算しています)。
brms::waic(fit) Computed from 4000 by 32 log-likelihood matrix Estimate SE elpd_waic -78.9 3.9 p_waic 4.1 1.0 waic 157.8 7.9 Warning message: 4 (12.5%) p_waic estimates greater than 0.4. We recommend trying loo instead.
brms::loo(fit) Computed from 4000 by 32 log-likelihood matrix Estimate SE elpd_loo -79.0 4.0 p_loo 4.3 1.1 looic 158.1 7.9 ------ Monte Carlo SE of elpd_loo is 0.1. Pareto k diagnostic values: Count Pct. Min. n_eff (-Inf, 0.5] (good) 31 96.9% 1187 (0.5, 0.7] (ok) 1 3.1% 855 (0.7, 1] (bad) 0 0.0% <NA> (1, Inf) (very bad) 0 0.0% <NA> All Pareto k estimates are ok (k < 0.7). See help('pareto-k-diagnostic') for details.
事前分布の表示
brmsは、いくつかのパラメータについてデフォルトで事前分布を与えていることがあります。今回指定したモデルで、各パラメータにどのような事前分布が与えられていたのかを知るには、brms::get_prior()
を使用します。この中にモデルを指定すると、以下のように一覧が表示されます。
brms::get_prior(mpg ~ wt * am, data = mtcars) prior class coef group resp dpar nlpar bound 1 b 2 b am 3 b wt 4 b wt:am 5 student_t(3, 19, 10) Intercept 6 student_t(3, 0, 10) sigma
Interceptの事前分布student_t(3, 19, 10)
、19ってどういう根拠で設定されたんでしょうね...。brmsはこんな風に、いくつかのパラメータにデフォルトで弱情報の事前分布を与えていることがあるのですが、どういう根拠に基づいているのかは、まだよく分かっていません。
またbrmsでは基本的に(おそらく常に?)、回帰係数b
には事前分布は明示されません。つまりデフォルトでは、無情報事前分布が適用されるということになります。これは後述する「bayes factorの計算」においては問題となるため、そのような場合にはユーザが事前分布を指定する必要がでてきます。
事前分布の指定
ユーザが任意の事前分布を指定したければ、brms::brm()
のなかでprior =
という引数にパラメータと事前分布をセットで指定します。指定方法には複数の記法があります。詳しくは、コンソール上で?brms::set_prior
と入力して、ヘルプをご参照ください。
fit2 <- brm(mpg ~ wt * am, data = mtcars, iter = 2000, warmup = 1000, seed = 1234, chain = 4, prior = c(prior_string("normal(0, 10)", class = "b"), prior(student_t(3, 19, 10), class = Intercept), prior_(~student_t(3, 0, 10), class = ~sigma) ) )
Stanコードの表示
brms::make_stancode()
のなかに、事前分布を含み任意のモデルを指定すると、そのStanコードをコンソールに表示してくれます。例えば先ほど事前分布を指定した、以下のモデルのStanコードを表示してみましょう。長いので、ここではmodelブロックだけ掲載します。
ちゃんと、ユーザが指定した事前分布も反映されていますね(target += normal_lpdf(b | 0, 10)
という部分)。
brms::make_stancode(mpg ~ wt * am, data = mtcars, prior = c(prior_string("normal(0, 10)", class = "b"), prior(student_t(3, 19, 10), class = Intercept), prior_(~student_t(3, 0, 10), class = ~sigma) ) ) # 以下、出力 -------------------------------------------- model { vector[N] mu = temp_Intercept + Xc * b; // priors including all constants target += normal_lpdf(b | 0, 10); target += student_t_lpdf(temp_Intercept | 3, 19, 10); target += student_t_lpdf(sigma | 3, 0, 10) - 1 * student_t_lccdf(0 | 3, 0, 10); // likelihood including all constants if (!prior_only) { target += normal_lpdf(Y | mu, sigma); } }
そうそう、brmsのStanコードは全て、target +=
記法を用いて書かれています。
結果の可視化
plot()
brmsは、サンプリング結果の視覚化にも長けています。rstan::stan_trace()
やrstan::stan_dens()
のように、描きたいグラフに応じて個別の関数が用意されていることが多いと思いますが、brmsはbayesplotパッケージのbayesplot::mcmc_combo()
を用いて結果を可視化します。bayesplotパッケージについては、Stan Advent Calendar 2018の2日目の記事や、11日目の記事をご覧ください。
bayesplot::mcmc_combo()
は、各パラメータについて、事後分布とトレースプロットを並べて表示してくれます。
plot(fit)
繰り返しますがこのグラフはbayesplotパッケージを用いて出力されているので、同パッケージの関数を用いて見栄え(Aesthetic)を調整することができます。また、bayesplot::mcmc_combo()
と同様に、bayesplotパッケージのmcmc_
シリーズの関数のうち、どの種類の関数を組み合わせて表示するかも選択することができます(mcmc_
シリーズについては、Stan Advent Calendar 2018 2日目の記事を参照してください)。ただしmcmc_combo()
で表示できるグラフの種類は限られているようです。
例えばこんな風に、色調をピンクに変更し、トレースプロット(bayesplot::mcmc_trace()
)とチェインごとの事後分布(bayesplot::mcmc_dens_overlay()
)を並べることもできます。
bayesplot::color_scheme_set("pink") plot(fit, combo = c("trace", "dens_overlay"))
marginal_effects()
※注意:brms 2.11.0
より、brms::marginal_effect()
がbrms::conditional_effects()
に名称変更されています。詳しくはこちら
さらにbrms::marginal_effects()
を用いると、「主効果」や「交互作用」を可視化することもできます。今回は交互作用項を含むモデルを指定したので、いわゆる「単純傾斜」も自動的に可視化されます。下のグラフは、左から順に「wtの主効果」「amの主効果」「wtとamの交互作用」を示します。
引数effects
に何も指定しなければ、すべての項について可視化が行われますが、特定の項だけを指定することも可能です。また、交互作用項を指定する場合には、その順番を変えることで、どちらの変数についての単純効果を可視化するかも決めることができます。
marginal_effects(fit, effects = "wt:am") #左のグラフ marginal_effects(fit, effects = "am:wt") #右のグラフ
離散変数の場合は(今回はam)、各水準における他方の変数の単純効果が可視化されます。連続変数の場合は(今回はwt)、平均±1SDのポイントにおける、他方の変数の単純効果が示されます。
mean(mtcars$wt) + sd(mtcars$wt) #平均+1SD [1] 4.195707 mean(mtcars$wt) #平均 [1] 3.21725 mean(mtcars$wt) - sd(mtcars$wt) #平均-1SD [1] 2.238793
事後予測チェック
事後予測チェックについては、Stan Advent Calendar 2018 11日目の記事も参照してください。Stanでモデルを書いた場合、事後予測チェックを行うためには、generated quantitiesブロックでモデルから乱数を生成させる手続きが必要になります。その乱数を抽出して、実際に観測されたデータとの類似性を把握するわけですが、なんとbrmsでは、サンプリング結果が格納されたオブジェクトをbrms::pp_check()
に入れるだけで、事後予測チェックができます!
brms::pp_check(fit)
Stan Advent Calendar 2018 11日目の記事を読んだ方はお察しの通り、これは内部でbayesplot::ppc_dens_overlay()
を使用しています。
他の事後予測チェックにも対応していますよ。type =
という引数に、描画形式を指定してみます。
brms::pp_check(fit, type = "error_hist")
これはbayesplot::ppc_error_hist()
を使用していますね。
一般化線形モデル
次は、正規分布以外の指数分布族を扱えるように拡張した、一般化線形モデルを例に挙げます。今度は目的変数を、オートマ車かマニュアル車かam
にし、説明変数に燃費mpg
と重量wt
を投入してみます。
stats::glm()
と同様に、目的変数が従う確率分布を、引数family =
に指定しましょう。今回は、オートマ車かマニュアル車かam
は2値の変数なので、family = "bernoulli"
とベルヌーイ分布を指定するのがよいように思われます(余談ですが、stats::glm()
では2値の目的変数に対しては二項分布(family = "binomial"
)を指定しますが、brmsでは2値の目的変数に対して二項分布を指定すると、Only 2 levels detected so that family 'bernoulli' might be a more efficient choice.とサジェストされます)。
ただしbrmsでは、family = "binomial"
を指定した際の記法がstats::glm()
と異なるので、ここでは紹介のためあえて二項分布を適用した書き方をしてみます。
stats::glm()
ではこのように書きます。
#amをfactor型に変換していたのを、いったんリセット data(mtcars) fit <- glm(cbind(am, 1 - am) ~ mpg + wt, family = "binomial", data = mtcars) #目的変数が2値の場合は、 #fit <- glm(am ~ mpg + wt, family = "binomial", data = mtcars) でOK summary(fit)
cbind()
のなかで何をしているのかというと、総試行数中に占める、成功試行数(am
)と失敗試行数(1 - am
)の列を指定しています。今回は1台の車がオートマ車かマニュアル車かを予測するので、試行数は1であるため、失敗試行の列は1 - am
としています。
さて、brmsでは、目的変数が二項分布に従うと仮定するとき、以下のように書きます。|
の左側には成功試行数を、右側にはtrials()
の中に試行数を入れます。
#amをfactor型に変換していたのを、いったんリセット data(mtcars) fit <- brm(am | trials(1) ~ mpg + wt, family = "binomial", data = mtcars) #目的変数が2値の場合は、 #fit <- brm(am ~ mpg + wt, family = "bernoulli", data = mtcars) でOK summary(fit)
brms::marginal_effects()
で主効果を可視化してみると、ロジットリンク関数によって、直線ではなく曲線になっていることがわかりますね。
豊富なbrms family
ゼロ過剰ポアソン分布
さて、ここからがbrmsの真骨頂です。stats::glm()
ではfamilyに指定できる確率分布は以下の通りです。
- gaussian
- binomial
- Gamma
- inverse.gaussian
- poisson
- quasi
が、brmsでは豊富なfamilyが用意されているということを、冒頭で述べました。試しにちょっと珍しい分布を使ってみましょう。
Mr.Unadon氏がTwitter上で「あなたは、片方しかない靴下を何足もっていますか?」とアンケートをとった結果を拝借します。ネタ元はこちらの片方しかない靴下の数をゼロ過剰ポアソン分布でモデリングしてみたです。
dat <- data.frame(Y = c(rep(0, 746), rep(1, 142), rep(2, 142), rep(3, 154), rep(4, 23), rep(5, 22), rep(6, 9), rep(7, 66) ) ) set.seed(1234) dat$X <- 50 + 2.5*dat$Y + rnorm(n = nrow(dat), mean = 0, sd = 10)
Y
がUnadon氏が集めた、片方しかない靴下の所持数のデータです。今回のサンプルの中では、ほとんどの人は靴下を片方だけなくすということはないようですね。僕が初めてこのアンケートを見た時、「靴下片方だけどうやって失くすねん」と思ったのですが、最近我が家で片方しかない靴下が発見されました。
さて、靴下の所持数はカウントデータなので、ポアソン分布と相性がよさそうに思えますが、上図のとおりゼロが圧倒的に多く、通常のポアソン分布の仮定を満たしそうにありません。そこで、ゼロが通常のポアソン分布よりも過剰であるという特徴を捉えた、ゼロ過剰ポアソン分布(zero-inflated poisson)という確率分布を考えます。
ゼロ過剰ポアソン分布は、ベルヌーイ分布とポアソン分布の混合分布です(以下の図はUnadon氏の記事から拝借しました)。靴下を失くすか否かがベルヌーイ分布に従うとと考え、もし失くさないなら当然、片方しかない靴下の所持数の回答は0。もし失くすなら、所持数はポアソン分布に従う、と考えます。なお、ポアソン分布に従う確率変数は0以上の整数をとりうることに注意してください。
一方X
は適当に作った変数ですが、仮に「日常の忙しさ指標(0-100点)」だとしておきましょう。仮定としては、忙しい人ほど靴下を片方なくしやすい、といった具合です。
さて、片方しかない靴下の所持数を、忙しさで予測する、シンプルなモデルを考えてみましょう。ここで、Stanでモデルを書くとしたら、Unadon氏の記事にあるように、target +=
という記法を用いて、少し工夫した書き方が必要になります。
しかしbrmsでは、family = "zero_inflated_poisson"
を指定するだけです。
fit <- brm(Y ~ X, data = dat, family = "zero_inflated_poisson", seed = 1234) summary(fit) Family: zero_inflated_poisson Links: mu = log; zi = identity Formula: Y ~ X Data: dat (Number of observations: 1304) Samples: 4 chains, each with iter = 2000; warmup = 1000; thin = 1; total post-warmup samples = 4000 Population-Level Effects: Estimate Est.Error l-95% CI u-95% CI Eff.Sample Rhat Intercept -1.64 0.16 -1.98 -1.33 2039 1.00 X 0.04 0.00 0.04 0.05 2283 1.00 Family Specific Parameters: Estimate Est.Error l-95% CI u-95% CI Eff.Sample Rhat zi 0.47 0.02 0.43 0.50 1868 1.00 Samples were drawn using sampling(NUTS). For each parameter, Eff.Sample is a crude measure of effective sample size, and Rhat is the potential scale reduction factor on split chains (at convergence, Rhat = 1).
事後予測チェックしてみましょう。
brms::pp_check(fit)
いい感じですね。
階層線形モデル
本記事冒頭でも言及したように、lme4パッケージやlmerTestパッケ―ジを用いると、以下のように書きますよね。
lme4::lmer(y ~ x + (1 | group), data = dat)
lme4::glmer(y ~ x + (1 | group), family = "poisson", data = dat)
brmsでは、関数をbrm()
に変えるだけなので、本記事では説明を省略します。
モデル比較
brmsパッケージを用いてサンプリングした結果を利用して、モデル比較を行ってみます。モデル比較には様々な観点がありますが、ここではbayes factorを指標とすることにします。bayes factorについては、北條大樹さんのこちらの記事や、清水裕士さんのスライドをご参照ください。
brmsを用いてモデル比較するために、kidney
というデータセットを用いて、試してみましょう。survival
パッケージにも同じ名前のデータセットがあるので、区別するためにbrms::kidney
と指定したほうが無難です。
話を簡単にするために、ここでは目的変数に「病気の再発までの時間time
」、説明変数に「患者の年齢age
」を投入した、単回帰分析を考えます。また、本当は右側打ち切り(right-censored)が起こっているため、それを考慮したモデリングをするべきですが、打ち切りが起こっていないデータだけを抽出しています。
なおbrmsでは、brm(y | cens(censored) ~ x, data = dat)
のように書くことで、打ち切りデータのモデリングも容易に実現できます(cens()
のなかに、打ち切りの有無を判別する変数を投入します)。
#データセットの作成 --------------------------------------------- #1回目の再発までの時間 & 非打ち切りデータのみを使用 dat <- brms::kidney %>% dplyr::filter(recur == "1" & censored == 0) #データセットの行列数 ------------------------------------------- dim(dat) #38人分のデータが抽出された [1] 38 7 #冒頭6行分を表示 ------------------------------------------------ head(dat) time censored patient recur age sex disease 1 8 0 1 1 28 male other 2 23 0 2 1 48 female GN 3 22 0 3 1 32 male other 4 447 0 4 1 31 female other 5 30 0 5 1 10 male other 6 24 0 6 1 16 female other
目的変数time
の分布はこのように左に歪んでいます。
正規分布を仮定したモデル
まずはベーシックな単回帰分析を実行してみます。目的変数が正規分布に従うと想定することになるので、family = "normal"
と指定します(familyを指定しなければ自動的に正規分布を仮定することになるので、省略も可能です)。
さらに以下3点を対処する必要があります。
- 全パラメータに、無情報でない事前分布を指定
iter
を多めに- 正確には、有効なMCMCサンプルの数を多めに(2109/12/6追記)
save_all_pars = TRUE
と引数を指定
モデルはこのようになります。
fit_n <- brm(time ~ age, family = "normal", prior = prior(normal(0, 5), class = b), seed = 1234, iter = 100000, warmup = 5000, data = dat, save_all_pars = TRUE)
事後予測チェックを行ってみましょう。
brms::pp_check(fit_n)
実際に観測されたデータとズレがありますね。上のヒストグラムを見ればわかる通り、今回はtime
が正規分布に従うと仮定するのは、適切ではないかもしれません。
最後にbrms::bridge_sampler()
を用いて、bridge samplingによる対数周辺尤度を計算してみましょう。これは内部ではbridgesampling::bridge_sampler()
を利用しています。
brms::bridge_sampler(fit_n) Iteration: 1 Iteration: 2 Iteration: 3 Iteration: 4 Bridge sampling estimate of the log marginal likelihood: -249.9636 Estimate obtained in 4 iteration(s) via method "normal".
ワイブル分布を仮定したモデル
brms::kidney
は生存時間解析に適したデータセットなので、比較対象として、パラメトリックな生存時間解析でよく用いられる、ワイブル分布を適用したモデルを考えてみます。
fit_w <- brm(time ~ age, family = weibull(), prior = prior(normal(0, 5), class = b), seed = 1234, iter = 100000, warmup = 5000, data = dat, save_all_pars = TRUE)
事後予測チェック。
brms::pp_check(fit_w)
先ほどよりマシになった気がしますね。
次はbridge samplingによる対数周辺尤度の計算。
brms::bridge_sampler(fit_w) Iteration: 1 Iteration: 2 Iteration: 3 Iteration: 4 Bridge sampling estimate of the log marginal likelihood: -232.0824 Estimate obtained in 4 iteration(s) via method "normal".
正規分布 vs ワイブル分布
いよいよモデル比較です。各モデルの対数周辺尤度に、いったん-1
を掛けます。つまり、自由エネルギーとして計算します。
「自由エネルギーの差」の指数をとるとbayes factorになります。
fe_n = -1 * brms::bridge_sampler(fit_n)$logml #正規モデルの自由エネルギー fe_w = -1 * brms::bridge_sampler(fit_w)$logml #ワイブルモデルの自由エネルギー exp(fe_n - fe_w) #bayes factor [1] 58278089
今回のデータに対する当てはまりの観点では、正規分布を仮定したモデルに対して、ワイブル分布を仮定したモデルを支持する程度が、58278089倍...もう圧倒的に大きいと考えられます。
ただしbrmsは、bridgesampling::bayes_factor()
を利用して直接bayes factorを計算する、brms::bayes_factor()
という関数を用意しています。引数x1
とx2
に、各モデルのサンプリング結果を格納したオブジェクトを指定してください。
brms::bayes_factor(x1 = fit_w, x2 = fit_n) Iteration: 1 Iteration: 2 Iteration: 3 Iteration: 4 Iteration: 1 Iteration: 2 Iteration: 3 Iteration: 4 Estimated Bayes factor in favor of bridge1 over bridge2: 58273598.05176
やはり今回のデータに対する当てはまりの観点では、正規分布を仮定したモデルよりも、ワイブル分布を仮定したモデルのほうが良いと考えられます。
こんな風に、brmsを用いてモデル比較をすることもできます。ただしモデル比較という手続きは非常に難しいので、実際にはもっと慎重に行う必要があると思います。 以下、北條さんの記事から引用します。
ベイズファクターの注意点
- ベイズファクターは事前分布の影響をかなり大きくうけます 。
→ 同一データ、同一モデルで事前分布のみを変化させた場合に、
どれだけベイズファクターが変化するかを検討するととてもよくわかります。
- bridgesamplingパッケージでも計算がうまく行かないことはありますので、
全てのモデル間のベイズファクターが計算できるわけではありません。
- モデル比較を行うのはとても難しいです。
本来、我々が、比較すべきモデルは無限に存在します。
- ベイズファクターは、2つのモデル間の比として考えるので、
それ以外のモデルについては考えてはいません。
2019/12/6追記
清水裕士さんによる、Stan Advent Calendar 2019 6日目の記事:brmsパッケージで安易にベイズファクターを使うと死ぬ話で、brmsでベイズファクターを求める際の注意点が書かれています。
その他のtips
Stanコードの保存
brms::brm()
でサンプリングを行う際に、save_model = "hogehoge"
と引数を追加してみましょう(もちろんhogehogeのところは任意の名前で構いません)。
fit_w <- brm(time ~ age, data = dat, save_model = "hogehoge")
するとカレントディレクトリに、hogehoge
という名前のファイルができていると思います。R上でこのファイルを開くと、brms::make_stancode()
で生成できるようなStanコードが記録されていることが分かります。
仮にbrmsのバージョンが変わったとしても、少なくとも今回のサンプリングを実行した時点でのStanコードは判明しているので、結果の再生可能性の向上に寄与するかもしれません。
サンプリング結果の保存
brms::brm()
でサンプリングを行う際に、file = "fugafuga"
と引数を追加してみましょう(もちろんfugafugaのところは任意の名前で構いません)。
fit_w <- brm(time ~ age, data = dat, file = "fugafuga")
するとカレントディレクトリに、fugafuga.rds
という名前でサンプリング結果が保存されています。
以下のようにreadRDS()
という関数で、あとでロードすることができるので、「しまった、うっかりRStudioを閉じてしまった!」なんて心配も不要です。また、例えばサンプリング結果をRMarkdownでまとめたい場合などにも重宝すると思います。
fit_again <- readRDS("fugafuga.rds")
関数名の前に「brms::」と付けるクセをつける
あくまで個人的な意見ですが、何かしらのパッケージ内の関数を使用する場合には、パッケージ名を併記したほうがいいと思っています(例えばdplyr::select()
とか)。これはいくつかの理由がありますが、一番の理由は、たまに複数のパッケージ間で同じ名前の関数が存在することがあるからです。例えばfilter()
という関数は、少なくともstatsパッケージとdplyrパッケージに存在します。
また、他者とコードを共有するときに、何のパッケージの関数か分からないと混乱を招くと思うので、そういった意味でもパッケージ名を明示しておいた方がいいかなと思っています。
もちろん、文字数が増えるのでコードが見にくくなるという側面もありますが。
ただ、brmsを用いる際には、特に意識してbrms::
と書いたほうがよいと思います。これは何故かというと、brmsは様々なパッケージに依存しているのですが、データセット名や関数名が衝突することがあるからです。例えば以下のようなデータセットや関数たち。
brms::kidney
データセットとsurvival::kidney
データセットbrms::bayes_factor()
とbridgesampling::bayes_factor()
brms::bridge_sampler()
とbridgesampling::bridge_sampler()
brms::bf()
とbridgesampling::bf()
一番タチが悪いのが最後のbf()
です。bridgesampling::bf()
はbayes factorを計算する関数で、bridgesampling::bayes_factor()
の略称なのですが、brms::bf()
はbayes factorとは関係がありません。brms::bf()
は、brms::brmsformula()
の略称で、brmsを用いて高度なモデリングを可能にするための関数です。
分位点回帰を例に説明しましょう。brmsは、分位点回帰も容易に実行することができます。その場合、asymmetric Laplace
分布を適用して、以下のように書きます。brm()
のなかに、さらにbf()
という関数を書いて、その中でモデルを指定します。
fit <- brm(bf(y ~ x, quantile = 0.2), data = dat, family = asym_laplace() )
これ、bridgesampling::bf()
のほうが読み込まれてしまうと、当然エラーになります。したがって以下のように、brms::bf()
であることを明示したほうが無難です。
fit <- brm(brms::bf(y ~ x, quantile = 0.2), data = dat, family = asym_laplace() )
あるいは、パッケージの優先順位をつけてもいいかもしれないですね。
参考記事:R でパッケージの優先順位を変えたい #rstatsj
おわりに
ここで紹介した機能は、brmsのほんの一部にすぎません。モデリングの自由度もかなり高いですし、ユーザも多いのでWeb上で色んな情報を得ることができます。 例えばこちらの記事では、brmsを用いて信号検出理論のパラメータを推定しています。
きっとこれからも、どんどん新しい機能が追加されていくと思うので、要チェックですね。
そういえば、この記事を書くためにbrmsについて調べていたら、brmsとggplot2とtidyverseを用いてStatistical Rethinkingを解説しているドキュメントを見つけました。
Statistical Rethinking with brms, ggplot2, and the tidyverse
ざっと見たところ、brmsの具体的な使用例についても紹介しているようです。参考にしてみてください。
Enjoy!!
Introduction to bayesplot (ppc_ series)
はじめに
Stan Advent Calendar 2018 11日目の記事です。また、タイトルを見て察した人もいるかもしれませんが、Stan Advent Calendar 2018の2日目の記事である、北條大樹さんによるIntroduction to bayesplot (mcmc_ series) の続編でもあります。bayesplotパッケージそのものについては、本記事では説明を省略するため、まずは北條さんの記事をご一読ください。以下引用。
Stanには、既にggplot2ライクな事後処理用の関数が標準装備されています。ここら辺に関しては、以下の資料をご覧ください。
Stanの便利な事後処理関数
これとは別にStan公式が出しているbayesplotパッケージというものがあって、これも同じようなことができます。 既に日本語文献として小杉先生のサイトで紹介されていました(こちら)。上記も併せてご覧ください。この記事を書くうえでも参考にしています。
bayesplotパッケージでは、大きく二つの関数系に分かれています
1. mcmc_ シリーズ(収束や事後分布を確認するための関数群)
2. ppc_ シリーズ(事後予測チェックを行うのに便利な関数群)
この記事では、1.のmcmc_ シリーズの説明を行います。 2.については誰かもしくは未来の自分がやってくれることでしょうw
別に、2.を紹介してしまっても、構わんのだろう?
本記事で採用するモデル
僕はRにデフォルトで用意されているmtcars
というデータセットが好きなので、本記事でもこのデータセットを用います。mtcarsには、32種類の車のデータ(例:燃費mpg
、車体重量wt
、マニュアル車かオートマ車かam
)が格納されています。
head(mtcars) mpg cyl disp hp drat wt qsec vs am gear carb Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4 Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4 Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1 Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1 Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2 Valiant 18.1 6 225 105 2.76 3.460 20.22 1 0 3 1
ここでは、燃費を車体重量で予測する、単回帰分析をやってみます。Stanコードは以下の通りです(事前分布は省略しています)。あとで事後予測チェックを行うために、generated quantitiesブロックでy_pred
という変数を宣言し、今回のモデルに従う乱数を格納させています。
data{ int N; vector[N] Y; vector[N] X; } parameters{ real a; real b; real<lower = 0> sigma; } model{ Y ~ normal(a + b*X, sigma); } generated quantities{ vector[N] y_pred; for(n in 1:N){ y_pred[n] = normal_rng(a + b*X[n], sigma); } }
このモデルをregression.stan
という名前で保存してコンパイルしたのち、R上でサンプリングを行います。あとでbayesplotパッケージを用いるので、ここでrstanパッケージと一緒にロードしておきます。
library(rstan) library(bayesplot) stanmodel = rstan::stan_model("regression.stan") standata = list(N = nrow(mtcars), Y = mtcars$mpg, X = mtcars$wt) fit = rstan::sampling(object = stanmodel, data = standata, seed = 1234, iter = 2000, warmup = 1000, chain = 4)
診断
北條さんの記事と同様に、bayesplotパッケージの関数を用いて、収束したかどうか確認してみましょう。切片a
、傾きb
、標準偏差sigma
の3つのパラメータについて、bayesplot::mcmc_combo()
で事後分布とトレースプロットを並べて描画します。サンプリング結果を格納したオブジェクトを、as.array()
で配列型にしてから与えることをお忘れなく。
bayesplot::mcmc_combo(as.array(fit), pars = c("a", "b", "sigma"))
便利ですね。
事後予測チェック
さて、ここからが、本記事の本命です。北條さんの記事では紹介されていなかった、ppc_
シリーズの関数を紹介していきます。bayesplotパッケージには、事後予測チェックを手軽に行える関数が、たくさん用意されています。
そもそも事後予測チェック(PPC: Posterior Predictive Check)とは、モデルチェックのための手続きです。
もし何かしらの仮説に基づきモデルを立て、そのモデルが現象をとらえられているとしたら、そのモデルから生成された将来のデータは、今回観測されたデータと似ていることが期待できます。
反対に、モデルから生成した将来のデータが、今回の観測データと似ていないとすると、モデルに改良の余地があるかもしれません。
ppc_ シリーズ
bayesplotパッケージでは、事後予測チェックのための関数は、いずれもppc_
から始まる名前が与えられています。その一覧は、available_ppc()
という関数で知ることができます。あるいは公式サイトをご覧ください。
bayesplot::available_ppc() bayesplot PPC module: ppc_bars ppc_bars_grouped ppc_boxplot ppc_data ppc_dens ppc_dens_overlay ppc_ecdf_overlay ppc_error_binned ppc_error_hist ppc_error_hist_grouped ppc_error_scatter ppc_error_scatter_avg ppc_error_scatter_avg_vs_x ppc_freqpoly ppc_freqpoly_grouped ppc_hist ppc_intervals ppc_intervals_data ppc_intervals_grouped ppc_loo_intervals ppc_loo_pit ppc_loo_pit_overlay ppc_loo_pit_qq ppc_loo_ribbon ppc_ribbon ppc_ribbon_data ppc_ribbon_grouped ppc_rootogram ppc_scatter ppc_scatter_avg ppc_scatter_avg_grouped ppc_stat ppc_stat_2d ppc_stat_freqpoly_grouped ppc_stat_grouped ppc_violin_grouped
ppc_
シリーズの関数はいずれも、y
とyrep
という引数を持ちます。
y
には、サンプリングのためにStanに渡した目的変数を指定します。
y <- mtcars$mpg
一方yrep
には、モデルから生成した乱数を与えます。行列形式でデータが並んでいればよいので、matrix型やdata.frame型でOKです。
行数は、事後予測チェックの描画のために用いる、サンプリングのステップ数です。
列数は、目的変数yと同じ長さ(すなわち、観測されたデータの個数)です。
今回はStanの中で、y_pred
というベクトルにモデルから生成した乱数を格納したので、以下のようにしてy_pred
だけを抽出します。この時点でR上ではmatrix型になっているので、このままyrep
をppc_
シリーズの関数に与えることができます。
yrep <- rstan::extract(fit)$y_pred
ただし、今回は、iter = 2000, warmup = 1000, chain = 4
という設定でサンプリングを行ったため、モデルから生成した乱数は、y_pred[1]
からy_pred[32]
までそれぞれ(2000 - 1000) * 4 = 4000個あるのですが、すべてを描画に使うとごちゃごちゃして見にくくなってしまいますし、、処理もかなり重くなってしまいます。
View(yrep)
そのため一部の関数を用いて描画する際には、一度に使用する行数を絞る(つまり一部の乱数だけを用いる)ことが必要になってきます。
ppc_dens_overlay()
事後予測チェックを行うときに、個人的に便利だなと思うのが、この関数です。ggplot2パッケージのgeom_density()
で描けるような分布を、y
とyrep
それぞれについて描き、重ね合わせます。10ステップだけ絞り込んで描画を行っていることに注目してください。
bayesplot::ppc_dens_overlay(y = y, yrep = yrep[1:10, ])
色の濃い線で描かれたのが実際に観測されたデータ、薄い線で描かれているのがモデルから生成された乱数です。ピタッと重なっているわけではありませんが、悪くはなさそうです。
ppc_ribbon()
今回の回帰分析のように、目的変数Yに影響を与える説明変数Xが存在する(とモデルを組んでいる)とき、事後予測チェックにおいてはこれらの関係も重要になってくるでしょう。説明変数の変動に対する目的変数の変動の関係は、モデルから生成した乱数に対しても同様に認められるかどうかをチェックしてみましょう。
bayesplot::ppc_ribbon()
は、X軸の値に対応するY軸の値が複数存在するとき、それらの区間を描画します。ggplot2::geom_ribbon()
と似たようなものですね。今回はモデルから生成した乱数の一部ではなく、すべてを用いて描画してみます。
bayesplot::ppc_ribbon(y = mtcars$mpg, yrep = rstan::extract(fit)$y_pred, x = mtcars$wt, prob = 0.5, prob_outer = 0.95 )
引数prob
には内側の色の濃い帯、引数prob_outer
には外側の薄い帯の描画に使う、パーセンタイルを指定します。最も色の濃い折れ線が、実際に観測された目的変数です。
便利ですね...そういや僕、去年のStan Advent Calendar 2017では、ggfanパッケージを用いて、同様の事後予測チェックを行う記事を書いたんですが、もうbayesplotでいいよね...。
ppc_intervals()
今回使用したmtcars
データセットは、サンプルサイズが32しかないので、上記のように帯を描くだけでなく、1点1点に対して区間を示すことも可能です。引数はそのまま、関数をppc_intervals()
に変えてみましょう。
bayesplot::ppc_intervals(y = mtcars$mpg, yrep = rstan::extract(fit)$y_pred, x = mtcars$wt, prob = 0.5, prob_outer = 0.95 )
その他にも、非常に多くの事後予測チェック用の関数が用意されています。詳しくは公式サイトをご覧ください。
グラフのカスタマイズ
bayesplotパッケージの関数の内部ではggplotオブジェクトを作っているので、以下のようにggplot2の関数を用いてレイヤを追加して、グラフを加工することもできます。以下の例では、任意の切片と傾きを持つ直線を追加するggplot2の幾何学的オブジェクトである、geom_abline()
を使用しています。切片と傾きには、それぞれ推定したパラメータの事後平均を用いています。
bayesplot::ppc_intervals(y = mtcars$mpg, yrep = rstan::extract(fit)$y_pred, x = mtcars$wt, prob = 0.5, prob_outer = 0.95) + geom_abline(intercept = mean(rstan::extract(fit)$a), slope = mean(rstan::extract(fit)$b), linetype = "dashed")
もちろんppc_
シリーズの関数だけでなく、mcmc_
シリーズの関数でも同様です。以下の例では、themeをbwに変更するとともに、X軸上の任意の位置に垂直線を描くggplot2の幾何学的オブジェクトgeom_vline()
を用いて、x = 0
の位置に垂直線を描画しています。
bayesplot::mcmc_areas_ridges(as.array(fit), pars = c("a", "b", "sigma"), prob = 0.95, prob_outer = 1) + theme_bw(base_size = 15) + geom_vline(xintercept = 0, linetype = "dashed")
あるいはbayesplotパッケージが用意している、グラフの見栄え(Aesthetics)を調整する関数を用いることも可能です。一覧は公式サイトの「Aesthetics」のところをご覧ください。
例えば直前のグラフは、bayesplotパッケージが用意しているvline_0()
という関数を用いて実現することもできます。ついでに、color_scheme_set()
という関数で、色調を紫色ベースに変えてみましょう。
bayesplot::color_scheme_set("purple") bayesplot::mcmc_areas_ridges(as.array(fit), pars = c("a", "b", "sigma"), prob = 0.95, prob_outer = 1) + theme_bw(base_size = 15) + vline_0(linetype = "dashed")
現在セットされているカラースキームは、color_scheme_view()
でViewerペインに表示させることができます。ちなみにデフォルトのカラースキームは、"blue"です。
bayesplot::color_scheme_view()
また、そのカラーコードはcolor_scheme_get()
でコンソールに表示されます。
bayesplot::color_scheme_get() purple 1 #e5cce5 2 #bf7fbf 3 #a64ca6 4 #800080 5 #660066 6 #400040
こんな風に、カスタマイズの余地も残されています。
ただ自分自身では、カラースキームの変更はbayesplot::color_scheme_set()
を使いますが、その他のカスタマイズは普通にggplot2の関数を使っています(要はラッパー関数なので)。
他のパッケージとの連携
実はbayesplotパッケージは、brmsパッケージやrstanarmパッケージと非常に相性が良いです(brmsは、プロットにbayesplotパッケージを利用していますし)。これらは、回帰分析や一般化線形モデル、階層線形モデルをRで実行する際の記法と類似した記法で、様々なモデルのパラメータをベイズ推定することを可能にするパッケージです。特にbrmsパッケージはその守備範囲がかなり広く、拡張性も高いため、非常に便利なパッケージです。
これらのパッケージを用いてベイズ推定した際の事後予測チェックについては、Stan Advent Calendar 2018 16日目に投稿予定の、brmsパッケージ入門編の記事で触れる予定です。
おわりに
事後予測チェックは非常に重要な手続きだと思うのですが、それを行うためにggplot2による可視化や、dplyr・tidyrによるデータ整形の技術が必要になってくるとしたら、億劫になって省略してしまうこともあるかもしれません。
bayesplotパッケージは、多くの関数を用意することで可視化の手間を省いてくれる(つまりやってみようと思わせてくれる)、非常に有用なパッケージだと思います。
今回は一部の関数しか紹介できませんでしたが、ぜひ他にも色々と試してみてください。
Enjoy!!
xaringanthemerパッケージのライトな解説
たまたま最近NARUTOを読み返す機会があって、その流れでxaringan
パッケージを使い始めてみたら気に入ったので、これからもたまに使っていこうかと思っています。
一応説明しておくと...xaringan
とは、Yihui Xie氏により作られた、RMarkdownでHTMLスライドを生成するためのパッケージです。
詳しくは、氏の著書「R Markdown: The Definitive Guide」をご参照ください。
RMarkdownでHTMLスライドを生成するには、デフォルトのioslidesやSlidyを使うという手もあるのですが、拡張性の高さやちょっとした小技が使えるのが、xaringan
の魅力かと思います。
例えばこちらのスライドはxaringan
で作成されていますが、このスライドを開きながら、キーボードの「m」を押すと、ちょっとした忍術が使えます。
さて、xaringan
パッケージによりHTMLスライドが生成できるわけなので、見栄えを色々と変更するには、CSSをいじればいいということになります。xaringan
にはデフォルトのテーマ(theme)が設定されていますが、このテーマを変更する、いくつかのテンプレートが用意されています。例えばmetropolisというテーマを選択すると、こちらのページのようにスライドの見栄えが変わります。詳しくは「R Markdown: The Definitive Guide」をご参照ください。
ところが! xaringanthemer
というパッケージを見つけてしまいました。その名の通り、xaringan
で作成するHTMLスライドのテーマ(theme)を、ユーザが任意に操作しやすくするためのパッケージです。CSSよくわかんないや...という人でも、手軽にスライドの見栄えを調整できるようになります。
あまりの便利さに驚いたんですが、僕が調べた限りでは、xaringanthemer
パッケージに関する日本語の解説記事は見つからなかったので、備忘録がてら記事にまとめました。
と言っても使い方は簡単で、とりあえずパッケージをインストールしたあとで...
# install.packages("devtools") devtools::install_github("gadenbuie/xaringanthemer")
新規.Rmd
ファイルを立ち上げる際に、Ninja Themed Presentationを選択するだけです。
詳しくはREADMEのところを読めばわかりますが、xaringanthemer
も様々なテーマのテンプレートを用意しています。そしてそのテンプレート(これ自体が関数)は、様々な「見栄え」に関する引数を持っています。文字の色からフォントから見出しのサイズから...引数の多さにびっくりします。
例えばこちらの記事に埋め込んだスライドは、mono_light()
というテンプレートを使用しているため、緑を基調とした色合いになっていますが、下のように任意に設定を変更していました。必要なことは、.Rmdファイル冒頭で適当なRチャンクを作り、その中に以下を記述するだけです。
library(xaringanthemer) mono_light( base_color = "#1c5253", text_font_size = "30px", code_font_size = "20px", padding = "1em 1em 1em 1em",#margin header_h1_font_size = "45px", header_h2_font_size = "40px", header_h3_font_size = "35px", header_color = "midnightblue", header_font_google = google_font("Song Myung"), text_font_google = google_font("Song Myung", "400", "400i"), code_font_google = google_font("Song Myung"), link_color = "chocolate" )
また、任意のCSSをextra_css
という引数に与え、カスタマイズすることもできます。例えば以下の例では、指定した文字の色を赤にしたり、フォントサイズをデフォルトの50%にしたりするための準備をしています。
extra_css <- list( ".red" = list(color = "red"), ".small" = list("font-size" = "50%"), ".full-width" = list( display = "flex", width = "100%", flex = "1 1 auto" ) ) mono_light( extra_css = extra_css )
あとはMarkdown記法でドキュメントを執筆する際に、
買い物しようと街まで出かけたら、.red[財布忘れちゃったよ!] あーあ、ツイてない。.small[トホホ...]
などと書いてレンダリングすれば、「財布忘れちゃったよ」の部分が赤く、「トホホ...」の部分のフォントサイズが半分になって表示されます。
僕自身、xaringan
を使い始めたばかりで、まだよくわかっていない部分も多いのですが、お役に立てば幸いです。
Enjoy!!
「R Markdownによるドキュメント生成と バージョン管理入門」という発表をしてきました
2018年8月23日に関西学院大学のCAPS(応用心理科学研究センター)で行われたセミナーで、R Markdownによるドキュメント生成と バージョン管理入門という発表をさせていただきました。
※当日の配布資料から削った&修正したスライドがあります
主に心理学を専門とする、研究者や大学院生を対象とした発表でした。まだR Markdownを使ったことがない方々を想定して、以下のような話をしました。
また、ドキュメントを生成して終わりではなく、Gitによるバージョン管理も重要という話題提供も行いました。
これは本筋ではなく(ご依頼いただいた内容ではなく)、勝手に盛り込んでしまったものでしたが、なかには非常に関心を持っていただいた方もおられたようで、よかったです。
今回は入門編ということで、GitHub Desktopを用いた管理方法について紹介しました。
個人的な話になりますが、今回このセミナーのために初めてxaringanパッケージでスライドを作ってみました。まだ慣れていない部分もありますが、拡張性の高さにとても魅力を感じました。
自分自身の勉強にもなり、とてもいい機会になりました。関係者の皆様、ありがとうございました。