2017-09-08

Python：秒数が小数点以下のパース

Pandasでデータフレームに格納するときに，時間にナノ秒まで含まれている時のパースのやり方についてのメモ．

対象とするのはこんなデータ．

//file.csv
17:22:59.703371360,10
17:22:59.788956621,20
17:22:59.790719017,30
17:22:59.813919277,20
17:22:59.891942610,10
17:22:59.898820371,20
17:22:59.919604329,30

こんな感じで，小数点以下がすごい長いデータをパースしたいわけです．
一例としてこんな感じでしょうか．

import pandas as pd

# データ読み込み
df = pd.read_csv('file.csv', names=('time', 'val'))

# datetime型に変換
from dateutil import parser
df.time = df.time.apply(lambda x: parser.parse(x))

# 表示
print(df.dtypes)

出力すると

time    datetime64[ns]
val              int64
dtype: object

parserを使って無理やりdatetime型に変えています．
あとはapplyで一行づつ適用してます．
若干力技な気がしますが．．．

追記

このフォーマットの場合はparse_datesで指定するだけでも行けるっぽい．

import pandas as pd

# データ読み込み
df = pd.read_csv('time.csv', names=('time', 'val'),parse_dates=['time'])

# 表示
print(df.dtypes)

参考

relativedelta — dateutil 2.6.1 documentation

2017-04-22

ランダム関数について

Python3.X Numpy

numpyランダム関数を色々使ってみました．

まずはインポート

In [1]: import numpy as np

random()は0から1までの値が得られる

In [10]: np.random.random()
Out[10]: 0.45226808024834264

引数を入れると，入れた数字分の乱数が得られる

In [12]: np.random.random(5)
Out[12]: array([ 0.93385679,  0.6383795 ,  0.20373784,  0.76812241,  0.42309771])

範囲指定は出来ないみたいです

In [13]: random.uniform(1,100)
Traceback (most recent call last):

random.uniformで値を指定できるみたいです

In [14]: np.random.uniform(1,100)
Out[14]: 8.543481477277378

In [17]: np.random.uniform(2,5)
Out[17]: 2.2877891814898934

引数を入れないとrandom()と同じなんですかね？

In [15]: np.random.uniform()
Out[15]: 0.4615576165499794

範囲を指定して，個数も指定できるみたいです

In [18]: np.random.uniform(2,5,3)
Out[18]: array([ 4.67283745,  2.26006292,  4.18645001])

9.6. random — 擬似乱数を生成する — Python 3.6.1 ドキュメント

numpy.random.uniform — NumPy v1.12 Manual

2017-04-15

Jupyterでmatplotlibのメイリオを使うとしたらエラーが出た

表題のような現象が見られたので，次のように書き換えてみた

import matplotlib
import matplotlib.pyplot as plt

plt.style.use('ggplot') # ggplotを使う
matplotlib.rc('font', family='sans-serif')

2017-04-15

移動平均を計算しようとすると「FutureWarning: pd.rolling_mean is deprecated for Series and will be removed in a future version, replace with ・・・」と出て来る

FutureWarning: pd.rolling_mean is deprecated for Series and will be removed in a future version, replace with ・・・

stackoverflow.com

2017-04-11

特定の行・列を残す：Python，Numpy

Python3.X

Pandasで条件を指定して行・列を抜き出すやつが有ると思います．正式名称は分かりませんが，df[val>0]みたいなやつです．Numpyのarrayでおんなじことが出来るか試したので，メモ書きしておきます．

まずはこんな感じで配列を作ります．そして1個飛ばしで列を獲得できるかやってみます．

In [31]: import numpy as np

In [32]: a = np.array([[ 0,  1,  2,  3],
    ...:            [ 4,  5,  6,  7],
    ...:            [ 8,  9, 10, 11],
    ...:            [12, 13, 14, 15]])

In [33]: label = np.array([ 0,  1,  0,  1])

In [34]: mask = (label == 1)

まずは一個飛ばしで列を獲得してみます．
f:id:shu10038:20170411165227j:plain

In [35]: a[:,mask]
Out[35]: 
array([[ 1,  3],
       [ 5,  7],
       [ 9, 11],
       [13, 15]])

続いて一個飛ばしで行を獲得してみます．
f:id:shu10038:20170411165210j:plain

In [36]: a[mask,:]
Out[36]: 
array([[ 4,  5,  6,  7],
       [12, 13, 14, 15]])

それでは，一個飛ばしで行と列の両方を獲得するにはどうやるのでしょう？
f:id:shu10038:20170411165244j:plain

In [37]: a[mask,mask]
Out[37]: array([ 5, 15])

これだと上手く行かないので，次のように書いてみました．

In [38]: a[:,mask][mask,:]
Out[38]: 
array([[ 5,  7],
       [13, 15]])

参考

Pandas でデータフレームから特定の行・列を取得する – Python でデータサイエンス

2017-04-10

Pythonでargmaxとかargmin

argmaxとargminについて書いてあるようなタイトルですが，本記事ではargmaxのみです．argminも使い方は同じなので書いてません．
まずは配列を用意します．

In [8]: import numpy as np

In [9]: a = np.array([[1,2,3],[4,5,6],[7,8,9],[2,8,2]])

あとはご覧の通り

In [10]: a.argmax(axis=0)
Out[10]: array([2, 2, 2], dtype=int64)

In [11]: a.argmax(axis=1)
Out[11]: array([2, 2, 2, 1], dtype=int64)

In [12]: a.argmax()
Out[12]: 8

2017-03-20

sum()とsum(1)は何が違うのか？？：Python,NumPy

Python3.X

全部足すか列ごとに足すかの違いでした～

In [46]: import numpy as np

In [47]: A=np.array([[  2,4,6.],
    ...:  [  4,8,12.],
    ...:  [  6,12,18.]])

In [48]: A.sum()
Out[48]: 72.0

In [49]: A.sum(1)
Out[49]: array([ 12.,  24.,  36.])