標準化と中心化

Pythonで標準化とか中心化はどうやってやるんだろうという話です.

結論だけ書きます.(そのうち合間を見て加筆します)

このページではこういうデータを使います
f:id:shu10038:20181006173233j:plain

標準化

from scipy import stats
x = df.iloc[:, 2:6].apply(stats.zscore, axis=0)
x.head()

f:id:shu10038:20181006173231j:plain

標準化されているかを調べます
f:id:shu10038:20181006173229j:plain
平均ほぼ0,分散(標準偏差)ほぼ1

中心化

y = df.iloc[:, 1].apply(lambda v:v-df.iloc[:, 0].mean() ).astype(float)
y.head()