読者です 読者をやめる 読者になる 読者になる

元職業エンジニアの生き方

これまでとこれからを考えるための備忘録

データ解析ライブラリのPython・Pandasをいじってみた。

どうもです。

なんちゃってエンジニアです。

元職業エンジニア・プログラマの人工知能と未来の道楽日記

 

今回は、Pythonのデータ解析で利用されるPandasについて動かしてみたので、備忘録として掲載します。

 

やったことですが、私のツイートデータ(3か月)のツイートインプレッションが100以上で、かつ、その最小値・最大値・合計値を取る、簡単なプログラムです。

 

下記も見ていますので参考まで。

qiita.com

qiita.com

 

前提:

3ファイルを用意しています。

 ・tweet_activity_metrics_startupimyme_20170201_20170301_ja.csv

 ・tweet_activity_metrics_startupimyme_20170301_20170401_ja.csv

 ・tweet_activity_metrics_startupimyme_20170401_20170501_ja.csv

 

前文(Import文)

# -*- coding: utf-8 -*-

import glob
import numpy as np
import pandas as pd

 

取得プログラム:

1ファイルずつ取得をして解析。

class GetPdTest:

def pdFrame(self):
files = glob.glob('./data/tweet*.csv')
for file in files:
print('-----------------------------')
print('取得月 : ' + file.split("_")[4][:6])
print('*****************************')
data = pd.read_csv(file)
df = pd.DataFrame({
'ID' : data['ツイートID'],
'post' : data['時間'],
'Imp' : data['インプレッション'],
'Eng' : data['エンゲージメント'],
'Good' : data['いいね'],
'Retweet' : data['リツイート']
})
print('最小値 : ' + str(df.query("Imp >= 100")["Imp"].min()))
print('最大値 : ' + str(df.query("Imp >= 100")["Imp"].max()))
print('合計値 : ' + str(df.query("Imp >= 100")["Imp"].sum()))

if __name__ == '__main__':

base = GetPdTest()
base.pdFrame()

 

結果:

-----------------------------
取得月 : 201702
*****************************
最小値 : 207.0
最大値 : 207.0
合計値 : 207.0
-----------------------------
取得月 : 201703
*****************************
最小値 : 123.0
最大値 : 890.0
合計値 : 1611.0
-----------------------------
取得月 : 201704
*****************************
最小値 : 114.0
最大値 : 1993.0
合計値 : 5288.0

 

こんな感じになりました。

今回は本当の動作検証程度で、データ解析における初歩にも満たないことです。

これから励んでいきたいと思います。

 

それでは。

 


元職業プログラマ・エンジニアのMiyamoto

地域、クラウドファンディング、都市伝説、AI、人工知能、宇宙に興味があります。

Twitterやっているので宜しくお願い致します。

twitter.com