introductionr.nb.html | |
File Size: | 959 kb |
File Type: | html |
R studioの簡単な説明
R入門
Originally created by Martin Morgan and Lori Shepherd (Modified & Interpreted by Yusuke MATSUI)
最終更新日:2017年5月17日
home <- [配布したフォルダをコピーしたパス]
setwd(home)
R First Impression
Rは一行ごとに命令を解釈します。 コマンドプロンプトに数値と式を入力してみます
1 + 1
[1] 2
文字(変数)に値を割り当てます(代入)
x <- 1
x + x
[1] 2
Rにおける処理は関数
を用いて行います。関数は複数の値を与えると一つのベクトル(値の組)を返します。 c()
は複数の値を一つのベクトルにまとめて返します。
x <- c(1,2,3)
x
[1] 1 2 3
ベクトルを単位にして関数を用いると、効率的に計算できます。 sqrt()
関数は平方根をします。
y <- sqrt(x)
y
[1] 1.000000 1.414214 1.732051
Rでは、一つの目的を達成するのに、大抵はいくつの方法があります。
x <- c(1, 2, 3)
x
[1] 1 2 3
x = c(3, 4, 5)
x
[1] 3 4 5
x <- 4:9
x
[1] 4 5 6 7 8 9
Rは、変わった構文でもエラーを起こさずに実行できてしまう柔軟な言語です。ただし時には、間違っていても実行できるので、注意が必要です。正しい構文を身に着けるのがよいです。 こんな使いかたはしません。
10:12 -> x
x
[1] 10 11 12
x <- c(1,2,3) -> y
x
[1] 1 2 3
y
[1] 1 2 3
RにおけるData型:Vector型とリスト型
Atomic ベクトル
- 整数、数値(実数)、複素数値、論理値、文字、バイト
people <- c("Lori", "Yubo", "Greg", "Nitesh", "Valerie", "Herve")
people
[1] "Lori" "Yubo" "Greg" "Nitesh" "Valerie" "Herve"
- Atomic vectorは
名前
をつけることができます。
population <- c(Buffalo=259000, Rochester=210000, `New York`=8400000)
population
Buffalo Rochester New York
259000 210000 8400000
log10(population)
Buffalo Rochester New York
5.413300 5.322219 6.924279
- 欠損値:
NA
(“not available”)
truthiness <- c(TRUE, FALSE, NA)
truthiness
[1] TRUE FALSE NA
- 論理操作:
&
(and),|
(or),!
(not)
!truthiness
[1] FALSE TRUE NA
truthiness | !truthiness
[1] TRUE TRUE NA
truthiness & !truthiness
[1] FALSE FALSE NA
- 実数:
Inf
(無限大),NaN
(not-a-number; e.g., 0/0)
undefined_numeric_values <- c(NA, 0/0, NaN, Inf, -Inf)
undefined_numeric_values
[1] NA NaN NaN Inf -Inf
sqrt(undefined_numeric_values)
NaNs produced
[1] NA NaN NaN Inf NaN
- 文字列に対する操作
toupper(people)
[1] "LORI" "YUBO" "GREG" "NITESH" "VALERIE" "HERVE"
substr(people,1,3)
[1] "Lor" "Yub" "Gre" "Nit" "Val" "Her"
gsub("L","S",people)
[1] "Sori" "Yubo" "Greg" "Nitesh" "Valerie" "Herve"
- Rはエコなやつなんです(より長いベクトルに合わせるときに、短いベクトルをリサイクルする)
x <- 1:3
x * 2 # '2' (vector of length 1) recycled to c(2, 2, 2)
[1] 2 4 6
x + 2
[1] 3 4 5
Rでは、操作を入れ子にして記述することもできます。コードが一行でシンプルに書けますが、慣れないうちに多用すると、混乱や間違いの原因にもなります。
substr(tolower(people), 1, 3)
[1] "lor" "yub" "gre" "nit" "val" "her"
population[population < 1000000]
Buffalo Rochester
259000 210000
リスト
- リストは他のベクトルをいくつでも持つことができます。リスト中に別のリストを含めることもできます。
frenemies = list(
friends=c("Larry", "Richard", "Vivian"),
enemies=c("Dick", "Mike")
)
frenemies
$friends
[1] "Larry" "Richard" "Vivian"
$enemies
[1] "Dick" "Mike"
[
は一つのリストを取り出します。[[
はリストの要素を取り出します。
frenemies[1]
$friends
[1] "Larry" "Richard" "Vivian"
frenemies[c("enemies", "friends")]
$enemies
[1] "Dick" "Mike"
$friends
[1] "Larry" "Richard" "Vivian"
frenemies[["enemies"]]
[1] "Dick" "Mike"
また、リストの各要素はリスト名$名前
を用いて取り出すこともできます。
frenemies$friends
[1] "Larry" "Richard" "Vivian"
因子型(Factors)
- 文字列のようなベクトルですが、水準を表しています。
sex = factor(c("Male", "Male", "Female"),
levels=c("Female", "Male", "Hermaphrodite"))
sex
[1] Male Male Female
Levels: Female Male Hermaphrodite
sex == "Female"
[1] FALSE FALSE TRUE
table(sex)
sex
Female Male Hermaphrodite
1 2 0
sex[sex == "Female"]
[1] Female
Levels: Female Male Hermaphrodite
クラス:行列とデータフレーム
変数と変数は、より高度な形式(ベクトルではなく、2列以上の表形式)で互いに関連性を持ちます。
x = rnorm(1000) # 1000 random normal deviates
y = x + rnorm(1000) # another 1000 deviates, as a function of x
plot(y ~ x) # relationship bewteen x and y
表形式のデータは行列(Matrix)あるいはデータフレーム(Data frame)という形で扱うことができる。
行列
mat <- matrix(c(x,y),ncol=2,dimnames=list(NULL,c("X","Y")))
head(mat)
X Y
[1,] 1.0496814 0.963251706
[2,] 0.8600534 1.940403074
[3,] 0.3656297 1.164705295
[4,] 0.3202156 0.002081173
[5,] -0.2924875 -2.318154511
[6,] -1.5436153 -2.296778112
plot(Y~X,mat)
もしすべてのデータを見たいのであれば、view(mat)と打てば、新しいウィンドウが立ち上がります。データを要約したい場合には、summary(mat)
とします。
summary(mat)
X Y
Min. :-3.12043 Min. :-4.274855
1st Qu.:-0.68976 1st Qu.:-0.940847
Median :-0.03524 Median : 0.005398
Mean :-0.03643 Mean :-0.017844
3rd Qu.: 0.63622 3rd Qu.: 0.909239
Max. : 3.46710 Max. : 4.345877
行列の操作は座標を指定するように簡単に行えます。
mat[1,1] # element of (row,col) = (1,1) in the matrix
X
1.049681
mat[c(1,3),c(1,2)] #element of (row,col) = (1,1),(1,2),(3,1),(3,2) in the matrix
X Y
[1,] 1.0496814 0.9632517
[2,] 0.3656297 1.1647053
mat[1,] # first row
X Y
1.0496814 0.9632517
mat[1:10,] #first 10 rows
X Y
[1,] 1.0496814 0.963251706
[2,] 0.8600534 1.940403074
[3,] 0.3656297 1.164705295
[4,] 0.3202156 0.002081173
[5,] -0.2924875 -2.318154511
[6,] -1.5436153 -2.296778112
[7,] 0.6615876 -0.660558236
[8,] 0.5548444 -0.121794431
[9,] -0.6271999 -0.868178332
[10,] 0.1774791 -0.070211599
条件でフィルタリングすることもできます。
cond <- mat[,"X"] > 0 #condition where "X" is more than zero
positivex <- mat[cond,] #filtering corresponding to the condition
head(mat)
X Y
[1,] 1.0496814 0.963251706
[2,] 0.8600534 1.940403074
[3,] 0.3656297 1.164705295
[4,] 0.3202156 0.002081173
[5,] -0.2924875 -2.318154511
[6,] -1.5436153 -2.296778112
もっと複雑な条件でフィルタリングもできます。
cond1 <- mat[,"X"] > 0
cond2 <- mat[,"Y"] - mat[,"X"]^2 > 0
cond <- cond1 & cond2
complexcond <- mat[cond,]
head(complexcond)
X Y
[1,] 0.86005342 1.9404031
[2,] 0.36562974 1.1647053
[3,] 0.82350611 2.0236474
[4,] 0.30753063 2.0293793
[5,] 0.96978649 1.7120020
[6,] 0.03745899 0.4013019
plot(Y ~ X,positivex)
データフレーム
データフレームは行列とかなり似ています。基本的な使い方はほとんど行列と変わりません。
df <- data.frame(X=x,Y=y)
head(df)
plot(Y~X,df)
summary(df)
X Y
Min. :-3.12043 Min. :-4.274855
1st Qu.:-0.68976 1st Qu.:-0.940847
Median :-0.03524 Median : 0.005398
Mean :-0.03643 Mean :-0.017844
3rd Qu.: 0.63622 3rd Qu.: 0.909239
Max. : 3.46710 Max. : 4.345877
データフレームの要素にアクセスするには、行列と同じ指定方法以外に、データフレーム名$列名
という方法も用意されています。
positivex2 <- df[df$X > 0, ]
head(positivex2)
plot(Y~X,positivex2)
データフレームが行列と異なる点は、行列では列ごとに異なる異なるデータ型は持てませんが、データフレームでは、異なるデータ型を持つことができる点です。
x2 <- rnorm(100,0,1)
y2 <- rep(c("Apple","Grape","Cherry","Peach"),each=25)
mat2 <- matrix(c(x2,y2),ncol=2,dimnames=list(NULL,c("X","Y")))
head(mat2)
X Y
[1,] "-0.584383679476397" "Apple"
[2,] "-0.246258530438461" "Apple"
[3,] "-0.189676786790332" "Apple"
[4,] "3.24066540150374" "Apple"
[5,] "0.38272967770064" "Apple"
[6,] "0.107349391835546" "Apple"
""
で囲われているのは、文字列を意味しています。つまり、行列では二つのデータが混在できず数値型は文字型に変換されたということです。
sum(mat2[,"X"])
df2 <- data.frame(X=x2,Y=y2)
head(df2)
sum(df2$X)
[1] 9.055403
より大きく複雑な形式のデータになると、データフレームの柔軟性が必要になることもあります。必要に応じて使い分けてください。
- Rは自己内省型(introspective)で、あなたは誰ですかと尋ねれば親切に答えてくれます
class(df)
[1] "data.frame"
dim(df)
[1] 1000 2
colnames(df)
[1] "X" "Y"
これらの関数を用いて、列名を変更することも可能です。
df3 <- df
colnames(df3) <- c("A","B")
head(df3)
散布図を描くと線形モデルを当てはめたくなるでしょう(線形回帰)。 - Rではformula
を用いて、変数間の関係を表します。 - 変数は、二番目の入力(引数)に指定します。
fit <- lm(Y ~ X, df)
点を可視化して、回帰の直線を表示します
plot(Y ~ X, df)
abline(fit,col="red", lwd=3)
fitをANOVA(分散分析)形式に要約します。
anova(fit)
Analysis of Variance Table
Response: Y
Df Sum Sq Mean Sq F value Pr(>F)
X 1 1022.61 1022.61 1086 < 2.2e-16 ***
Residuals 998 939.76 0.94
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
ところで、fitは何者でしょうか。
class(fit)
[1] "lm"
また、fitに対して用いることのできる関数には何があるでしょうか。
methods(class=class(fit))
[1] add1 alias anova case.names coerce confint cooks.distance deviance dfbeta dfbetas drop1
[12] dummy.coef effects extractAIC family formula hatvalues influence initialize kappa labels logLik
[23] model.frame model.matrix nobs plot predict print proj qr residuals rstandard rstudent
[34] show simulate slotsFromS3 summary variable.names vcov
see '?methods' for accessing help and source code
データの読み込みと書き込み
実際のデータ解析では外部からデータを読み込んだり、書き込んで保存するということが頻繁にあります。 Rでの基本的な入出力関数はread.table()
とwrite.table()
です。
まず、練習準備のためデータを書き出してみましょう。x =
は書き出すデータ、file =
は書き出す先のファイル名(パスを指定しなければ、現在のディレクトリに保存)、row.names =
とcol.names =
は行あるいは列の名前を書きだすか否か、sep =
は区切り文字でタブ区切りにする場合は"\t"
, コンマ区切りにする場合は","
を指定。
write.table(x = df,file = "test.txt",row.names = F,col.names = T, sep = "\t")
現在のディレクトリに本当にファイルが作られたかを確かめてみましょう。
any(list.files() == "test.txt")
[1] TRUE
次に、先ほど書き出したデータを読み込みます。file =
は読み込むファイル名(パスを指定しなければ、現在のディレクトリに保存)、header =
は先頭行を列名として用いるか否か、sep =
は区切り文字、row.names =
はデータに行の名前が含まれている場合には、何列目に行の名前があるのかを数値で指定します。今回は、行に名前を付けていない場合はこのオプションは無視してもよい(例示のため、対応する列はないことを表すNULLとしました)
input_base <- read.table(file = "test.txt",header = TRUE,sep = "\t",row.names = NULL)
read.tableで読み込むと、自動的にデータフレームとして読み込まれます。
class(input_base)
[1] "data.frame"
ところで、大規模データを読み込むには、これらの二つの関数では、読み込みと書き出しに膨大な時間を要します。read.table()
とwrite.table()
は~数十MBくらいのデータならストレスなく読み込めますが、それ以上か数GB~十数GBのデータを読み込む場合には、覚悟が必要になります。近年、二つの超高速の入出力パッケージdata.table
とreadr
が開発され、実際の解析の場面では欠かせないツールとなっています。data.table
では高速に読み込むfread()
関数があり、readr
では高速に書き出すwrite_tsv()
関数があります。fread()
関数は筆者のベンチマークでread.table()
関数のおよそ50倍、write_tsv()
関数はwrite_table()
関数の6倍程度の速度まで向上しました。
write.tsv()
関数を使ってみましょう。x =
はデータ、path =
にはファイル名、col_names =
は、列名を書き出すか否かです。
library(readr)
write_tsv(x = df,path = "test2.txt",col_names = TRUE)
any(list.files() == "test2.txt")
[1] TRUE
次にfread()
関数を使ってみましょう。
library(data.table)
input_fread <- fread(input = "test2.txt",header = TRUE,sep = "\t")
data.tableにより読み込まれたデータは、特殊なクラスになっています。これを通常のデータフレームとして扱いたい場合は、as.data.frame()
関数で、強制的にデータフレーム型に変換します。
class(input_fread)
[1] "data.table" "data.frame"
input_fread_df <- as.data.frame(input_fread)
class(input_fread_df)
[1] "data.frame"
データの読み込みは単純なように見えますが、実はデータ解析の手順において難しい部分の一つで、常にトラブルがつきものです。その理由の一つは、データ形式が単純ではないことが多いからです。間違った値が入っていたり、文字形式(エンコーディング)が原因で文字化けをしていることが原因で読み込みにエラーが起きることもあります。それらは別の方法で綺麗な形に直すことも時には必要です。あるいは、データと同じファイルの最初の20行くらいは説明が書かれていて、それ以降に数値データが入っている場合などは、読み込みの時に、何行目以降を読み込むということをコンピューターに教える必要があります。おそらく、皆さんがデータ解析の現場に出る機会があったとすれば、最初につまずくところはデータの読み込みです。
fread
関数のもう少し高度な使い方を見ておきましょう。 実際にありえるちょっと面倒なデータを作ってみます。ここは、ただ実行して出来たデータがどんなものなか眺めてみてください。全体で、105行10列のデータです。最初の5行では謎の呪文が唱えられており、次の100行には数値データが入っていますが、欠損値を表している(?)と思われる“kessonn”という文字列が入っています。さらに、6行目には、リンゴと桃の違いを調べたかったのか、“Apple”と“Peach”という文字に連番が振られています。解析者を拷問しようとしているとしか思えないデータです。もし、近くに解析者がいたらよくいたわってあげてください。“dirtydata.txt”に保存しました。
x1 <- matrix(rep("hoge",5*10), nrow = 5, ncol = 10)
x2 <- c(paste0("Apple",1:5),paste0("Peach",1:5))
x3 <- matrix(rnorm(100*10),nrow = 100, ncol = 10)
x3[sample(length(x3),100)] <- "kesson"
dirty_data <- rbind(x1,x2,x3)
dirty_data <- as.data.frame(dirty_data)
dirty_data[1:10,]
write_tsv(dirty_data,path = "dirtydata.txt",col_names = FALSE)
さて、まず数値データを読みだそうと思います。つまり、最初の呪文は無視しましょう。 skip =
で何行目までを飛ばして読み込むかを表します。header=F
, skip = 5
とすると最初の5行を飛ばして6行目から読み込みます。
input_fread2 <- as.data.frame(fread("dirtydata.txt",header = FALSE, skip = 5, sep = "\t"))
head(input_fread2)
1列目は列名にしたいので、6行目だけを列名として読み込み、7行目以降を読みましょう。まずは7行目以降を読み込みます。Rでは欠損値はNA
なので、na.strings =
に欠損値を表している文字を指定して、kessonをNAに置き換えることします。
input_fread3 <- as.data.frame(fread("dirtydata.txt",header = FALSE, skip = 6, sep = "\t",na.strings = "kesson"))
head(input_fread3)
次に6行目のみを読み込みます。skip = 5
, nrows = 1
とすれば、5行目までを飛ばして、6行目から1行だけ読み込みます。また、便利のため読み込んだデータをベクトル型に変換しています。
col_names <- fread("dirtydata.txt",header = FALSE, skip = 5, nrows= 1)
col_names <- as.vector(as.matrix(col_names))
col_names
[1] "Apple1" "Apple2" "Apple3" "Apple4" "Apple5" "Peach1" "Peach2" "Peach3" "Peach4" "Peach5"
これを列名に代入します。
colnames(input_fread3) <- col_names
head(input_fread3)
きれいになりました!今回は、行を飛ばす操作をしましたが、列方向でもできます。skip =
は何列目を飛ばすかを指定し、select =
は何列目を選択するかをベクトルで与えます。 Peachだけを選択してみましょう。最初の5列を飛ばしていもいいし、6列名から10列目までを選んでもよいです。まずは最初の5列を飛ばして読み込みます。
input_fread4 <- as.data.frame(fread("dirtydata.txt",header = FALSE, skip = 6, sep = "\t",na.strings = "kesson", drop = 1:5))
colnames(input_fread4) <- col_names[6:10]
head(input_fread4)
同じ結果ですが、6列目から10列目をよみます。
input_fread5 <- as.data.frame(fread("dirtydata.txt",header = FALSE, skip = 6, sep = "\t",na.strings = "kesson", select = 6:10))
colnames(input_fread5) <- col_names[6:10]
head(input_fread5)
Help!
困ったらヘルプを見ましょう。 - rnorm()
関数を調べてみます。
?rnorm
Usage
セクションでは、関数をどのように使用するのかが書かれています。
rnorm(n, mean = 0, sd = 1)
引数(Auguments)のいくつかはデフォルトでUsageで代入されています。名前、引数の位置の順に、関数内部でマッチングします。
Augument
セクションでは、関数がどのような引数をとるかが説明されています。Value
セクションでは、関数により返される値について説明されています。Example
セクションでは、使い方の例を説明しています。- 多くの場合、実装の基礎となっている統計手法の論文参照、技術報告、関連した関数などが最後に書かれています。