2018-02-25

ATOMをCドライブ以外にインストールする方法

ATOMってエディタがあって，これはでは「こいつはCドライブ以外にインストールできないのか？」と思っていましたが，ひょんなことからDドライブとかにもインストールできました．

ある時ATOMを再インストールしようとすると「Installation has failed」と表示されました．なので下記を参考にさせていただきました．
takumi9942.net

これによれば

AtomSetup.exeあるいはAtomSetup Beta exeを7zipソフトで開く

中のファイルを短いパスのところに展開する（例：C:\Temp）

コマンドプロンプトを起動し、展開したフォルダまで移動する。（例：コマンドプロンプトを起動して、「cd c:\Temp」と入力する）

次のコマンドを実行する「Update.exe –install=.」

ということでしたが，この3番めのファイルを展開する際にD:\Tempとかで展開すればDドライブにもインストールできるというわけです．

おしまい．

2018-01-28

PandasとStatsModelsを使って重回帰分析をしてみた

コラム多変量解析

Pythonで重回帰分析をやってみました

多変量解析法入門 (ライブラリ新数学大系)

作者: 永田靖,棟近雅彦
出版社/メーカー: サイエンス社
発売日: 2001/04/01
メディア: 単行本
購入: 2人クリック: 9回
この商品を含むブログ (1件) を見る

この文献のP43～86を参考を参考にしています．

マンガでわかる統計学回帰分析編

作者: 高橋信,井上いろは,トレンドプロ
出版社/メーカー: オーム社
発売日: 2005/09/01
メディア: 単行本
購入: 42人クリック: 186回
この商品を含むブログ (101件) を見る

また，回帰分析の全体の流れは上の書籍を参考にしています．

今回はStatsModelsというライブラリを使いました．

データを可視化する
散布図行列を描く
相関係数を計算する
重回帰分析の計算をする
回帰式を使ってもう一回描画する

データを可視化する

データファイルを読み込んでどんなデータかを観察します．
今回は３次元データなので３次元プロットをしてみます．

# データの読み込み
import pandas as pd

file = 'reg_test_data.csv'
df = pd.read_csv(file)
df = df.set_index('val')

import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D

# 初期化
fig = plt.figure()
ax = Axes3D(fig)

# 軸ラベルを設定する
ax.set_xlabel("X-axis")
ax.set_ylabel("Y-axis")
ax.set_zlabel("Z-axis")

# データを無理やりarrayに変換する
xs = df.T.ix[:,0].values
ys = df.T.ix[:,1].values
zs = df.T.ix[:,2].values

# 描画
ax.scatter3D(xs, ys, zs)
plt.show()

f:id:shu10038:20180128193842p:plain
３次元プロットをしてみるとこんな感じです．

f:id:shu10038:20180128193845p:plain
横からみるとこんな感じです．x1とx2には相関はなさそうですが，x1とy，x2とyには相関がありそうです．

散布図行列を描く

描画をしただけだと感覚的にしかわからないので，定量的に評価します．
今回は散布図行列という可視化をしてみました．

from pandas.tools.plotting import scatter_matrix
scatter_matrix(df.T)
plt.show()

f:id:shu10038:20180128193843p:plain

相関係数を計算する

同じく，各変数の相関を定量評価します．

# 相関係数を表示
df.T.corr()
print(df.T.corr())

val        x1        x2         y
val                              
x1   1.000000 -0.170384  0.675085
x2  -0.170384  1.000000  0.603907
y    0.675085  0.603907  1.000000

この通りx1とx2には相関はなさそうですが，x1とy，x2とyには相関がありそうというのがわかります．

重回帰分析の計算をする

ここからが実際の分析です．
今回使ったStatsModelsのドキュメントは下記のとおりです

StatsModels: Statistics in Python — statsmodels 0.9.0 documentation

import statsmodels.formula.api as sm
reg = "y ~ x1 + x2"
model = sm.ols(formula=reg, data=df.T)

# 回帰分析を実行する
result = model.fit()

==============================================================================
Dep. Variable:                      y   R-squared:                       0.988
Model:                            OLS   Adj. R-squared:                  0.987
Method:                 Least Squares   F-statistic:                     703.1
Date:                Sun, 28 Jan 2018   Prob (F-statistic):           4.53e-17
Time:                        19:34:45   Log-Likelihood:                -25.297
No. Observations:                  20   AIC:                             56.59
Df Residuals:                      17   BIC:                             59.58
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [95.0% Conf. Int.]
------------------------------------------------------------------------------
Intercept      0.7622      0.829      0.919      0.371        -0.988     2.512
x1             1.0248      0.034     29.785      0.000         0.952     1.097
x2             1.0218      0.037     27.524      0.000         0.943     1.100
==============================================================================
Omnibus:                        4.291   Durbin-Watson:                   1.543
Prob(Omnibus):                  0.117   Jarque-Bera (JB):                1.439
Skew:                           0.024   Prob(JB):                        0.487
Kurtosis:                       1.687   Cond. No.                         86.1
==============================================================================

回帰式を使ってもう一回描画する

# 先程の結果から値を獲得
b0,b1,b2= result.params

# もう一回描画する
import numpy as np

# 変数の区間の指定
x = np.arange(0, 21, 3)
y = np.arange(0, 21, 3)

# メッシュ表示
X, Y = np.meshgrid(x, y)

# 回帰式を代入する
Z = b0 + b1*X +b2*Y

# 初期化
fig = plt.figure()
ax = Axes3D(fig)
ax.plot_wireframe(X,Y,Z)

# 軸名を設定する
ax.set_xlabel("X-axis")
ax.set_ylabel("Y-axis")
ax.set_zlabel("Z-axis")

# 表示範囲を指定する
ax.set_xlim(-5, 25)
ax.set_ylim(0, 25)
ax.set_zlim(0, 35)

# データを無理やりarrayに変換する
xs = df.T.ix[:,0].values
ys = df.T.ix[:,1].values
zs = df.T.ix[:,2].values

結構上手くフィティングされているように見えます．
f:id:shu10038:20180128193844p:plain

真横から見ると，ピタッと合っている気がします
f:id:shu10038:20180128193846p:plain

2018-01-04

PyCharm：interpolaterの設定にまつわるエラー

トラブルシューティング

年末年始にかけてPyCharmをインストールし直したら，エラーが出まくりました・・・
自分が勉強不足のところもあるわけですが，直すのに時間が掛かりました．
色々試行錯誤したのでメモっておきます．
ちなみにインストールしているバージョンは「Anaconda3-5.0.1-Windows-x86_64」「pycharm-community-2017.3.2」です．

そもそもRun出来ない場合
- 症状
- 解決法
ライブラリが読み込めない，importしない
- 症状
- 解決法
結局どうしたかというと・・・

そもそもRun出来ない場合

症状

f:id:shu10038:20180104105644j:plain
Runしようとすると

Please Select a valid Python interpolater

と出る．

ちなみにバージョンはCommunity版の2017.3

解決法

stackoverflowに書いてあったのでメモ

左上の「File」
「Settings」
「Project：○○（プロジェクトの名前）」
Project interpolater右のギアマーク
Add Local

ライブラリが読み込めない，importしない

症状

f:id:shu10038:20180113153744p:plain
f:id:shu10038:20180113153745p:plain

Pandasとかを読み込もうとすると，「ModuleNotFoundError: No module named ~~」とか出る
improt OSなどはできる
上の写真のようにPandasのところだけ「no module name」と出る
Jupyter Notebookとかではimportできる

解決法

これは正しい解決法か知りませんが，Projectを作成する際に，「Existing interplater」の値にAnaconda直下のPython3のEXEファイルを代入しました
f:id:shu10038:20180113155841j:plain

結局どうしたかというと・・・

その後一週間くらいしたら，python.exeの実行ファイルがなくなっていたりと，不具合続出でした．
だんだん面倒になってきたので古いバージョン（「Anaconda3-4.2.0-Windows-x86_64」「pycharm-community-2016.1.5」）をダウンロードしてインストールしなしました・・・

2017-10-08

Pandas：グループ毎に括って最大の値を含む列を抜き出す

PythonのライブラリーであるPandasを使って，「グループ毎に括って最大の値を含む列を抜き出す」方法のメモです．

対象とするのはこんなデータ

Sensor Time Value
0 T-A 10:00:00 25
1 T-B 10:00:01 30
2 T-C 10:00:02 104
3 T-B 10:00:03 52
4 T-C 10:00:04 41
5 T-A 10:00:05 91
6 T-C 10:00:06 102
7 T-B 10:00:07 40
8 T-B 10:00:08 101
9 T-C 10:00:09 97

３種類のSensorから時間と検知された値(Value)が返ってきます．
Sensorの種類ごとに括って，その中で最大の値を出す時間(と言うか行)を抜き出す，というのが今回の狙いです．

コードは下記の通り．
特定の列に含まれる最大値を含む行を抜き出す(日本語が複雑・・)方法が分からなかったのでやや力技を使いました．

import pandas as pd

# データ生成
df = pd.DataFrame(
        {'Time': ['10:00:00', '10:00:01', '10:00:02', '10:00:03', '10:00:04','10:00:05', '10:00:06', '10:00:07', '10:00:08', '10:00:09'],
         'Sensor': ['T-A', 'T-B', 'T-C', 'T-B', 'T-C', 'T-A', 'T-C', 'T-B' ,'T-B' ,'T-C'],
           'Value': [25, 30, 104, 52, 41, 91, 102, 40 ,101 ,97]})

# datetime型に変換
df['Time'] = df['Time'].apply(lambda dd: pd.to_datetime(dd))

# 'Sensor'で括る    
df_g = df.groupby('Sensor')

# 'Sensor'でくくられたデータフレームの中で'Value'に最大値を含む行を抜き出す
def select(xx):
    # 'Value'に最大値を含む行を抜き出す（そういうメソッドがあるのかもしれないけど分からなかった）
    val_r = xx[xx['Value'] == max(xx['Value']) ]
    
    # 全く同じ行があった場合は削除（このデータの場合は無いですけど）
    val_r = val_r.drop_duplicates()
    
    return val_r

df_new = df_g.apply(select)

ご覧の通り，Valueに含まれる最大値を含む行は無理やり書きました．
結果は下記の通り

Sensor Time Value
Sensor 
T-A 5 T-A 2017-10-08 10:00:05 91
T-B 8 T-B 2017-10-08 10:00:08 101
T-C 2 T-C 2017-10-08 10:00:02 104

2017-10-07

Anacondaをインストールしようとすると「Failed to create Anaconda menus」と言われる

Anacondaをアップデートしたらおかしくなったので再インストールした．

そしたら「Failed to create Anaconda menus」と言われてインストールできない．

shirabeta.net

アンインストールしてもフォルダが残っていたので削除したらインストールできたっぽい

2017-09-08

Python：秒数が小数点以下のパース

Pandasでデータフレームに格納するときに，時間にナノ秒まで含まれている時のパースのやり方についてのメモ．

対象とするのはこんなデータ．

//file.csv
17:22:59.703371360,10
17:22:59.788956621,20
17:22:59.790719017,30
17:22:59.813919277,20
17:22:59.891942610,10
17:22:59.898820371,20
17:22:59.919604329,30

こんな感じで，小数点以下がすごい長いデータをパースしたいわけです．
一例としてこんな感じでしょうか．

import pandas as pd

# データ読み込み
df = pd.read_csv('file.csv', names=('time', 'val'))

# datetime型に変換
from dateutil import parser
df.time = df.time.apply(lambda x: parser.parse(x))

# 表示
print(df.dtypes)

出力すると

time    datetime64[ns]
val              int64
dtype: object

parserを使って無理やりdatetime型に変えています．
あとはapplyで一行づつ適用してます．
若干力技な気がしますが．．．

追記

このフォーマットの場合はparse_datesで指定するだけでも行けるっぽい．

import pandas as pd

# データ読み込み
df = pd.read_csv('time.csv', names=('time', 'val'),parse_dates=['time'])

# 表示
print(df.dtypes)

参考

relativedelta — dateutil 2.6.1 documentation

2017-04-22

ランダム関数について

Python3.X Numpy

numpyランダム関数を色々使ってみました．

まずはインポート

In [1]: import numpy as np

random()は0から1までの値が得られる

In [10]: np.random.random()
Out[10]: 0.45226808024834264

引数を入れると，入れた数字分の乱数が得られる

In [12]: np.random.random(5)
Out[12]: array([ 0.93385679,  0.6383795 ,  0.20373784,  0.76812241,  0.42309771])

範囲指定は出来ないみたいです

In [13]: random.uniform(1,100)
Traceback (most recent call last):

random.uniformで値を指定できるみたいです

In [14]: np.random.uniform(1,100)
Out[14]: 8.543481477277378

In [17]: np.random.uniform(2,5)
Out[17]: 2.2877891814898934

引数を入れないとrandom()と同じなんですかね？

In [15]: np.random.uniform()
Out[15]: 0.4615576165499794

範囲を指定して，個数も指定できるみたいです

In [18]: np.random.uniform(2,5,3)
Out[18]: array([ 4.67283745,  2.26006292,  4.18645001])

9.6. random — 擬似乱数を生成する — Python 3.6.1 ドキュメント

numpy.random.uniform — NumPy v1.12 Manual