In [None]:
# Google Colab で実行している場合、ユーザの Google Drive をマウント(ファイルが使えるように)する。
import os
import sys
moduleList = sys.modules
ENV_COLAB = False
if 'google.colab' in moduleList:
 ENV_COLAB = True
 # print("google_colab")
if ENV_COLAB:
 from google.colab import drive
 drive.mount('/content/drive')
 gdpath = "/content/drive/MyDrive/"
else:
 gdpath = ""


In [None]:
# Google Drive のマイドライブ直下にファイルをアップロードしてください。
# gz形式で圧縮されたファイルをアップロードした場合は、以下のようなコマンドで解凍できます。
# ! gunzip /content/drive/MyDrive/MLS-full-cell-export-2023-01-31T000000.csv.gz

In [None]:
# FYI : ローカルなデバイスを経由するのが面倒だとお嘆きの方が好むCLIコマンド:
# ! cd /content/drive/MyDrive/ ; wget https://d2koia3g127518.cloudfront.net/export/MLS-full-cell-export-2023-02-20T000000.csv.gz

In [None]:
# マイドライブ直下のcsvファイルを読み込んで、DataFrame形式にする (数十秒〜1分間かかる場合も)
import pandas as pd
df = pd.read_csv(gdpath + 'MLS-full-cell-export-2023-01-31T000000.csv')
df

In [None]:
# 各列の要約統計量を表示
df.describe(include='all')

In [None]:
# 各列の要約統計量を stat_val1 に格納して、表示
stat_val1 = df.describe(include='all')
stat_val1

In [None]:
# 値を取り出す
stat_val1.loc['mean']['mcc']

In [None]:
# 最頻値
df_mode = df.mode()
df_mode

In [None]:
# 値を取り出す
df_mode.loc[0]['lon']

In [None]:
# 中央値
df_median = df.median()
df_median

In [None]:
# 値を取り出す
df_median['lon']

各列同士がどれくらい関係があるか、相関行列を計算してみます。

In [None]:
# 相関行列を計算する
corr_matrix = df.corr()
corr_matrix

In [None]:
# 相関行列のヒートマップ表示
df.corr().style.background_gradient(cmap = "bwr", vmin = -1, vmax = 1)

In [None]:
# 相関行列のヒートマップ表示: seaborn を使う場合
import seaborn
import matplotlib.pyplot as plt
seaborn.heatmap(corr_matrix,
 vmin=-1.0, vmax=1.0, center=0,
 annot=True, fmt='.1f',
 xticklabels=corr_matrix.columns.values,
 yticklabels=corr_matrix.columns.values
 )
plt.show()

In [None]:
df2 = df.copy() # df2 = df と書くと複製にならない(参照渡しになってしまう)
# いくつかの列を削除する
df2.drop('changeable', axis=1, inplace=True)
df2.drop('averageSignal', axis=1, inplace=True)
# df2 = df.loc[:,['mcc','cell','lon','lat']]
df_sub = df2[::1000] # 1/1000 で間引いたスライス
pd.plotting.scatter_matrix(df_sub, figsize=(15, 15))
plt.show()

In [None]:
df3 = df.loc[:,['lon','lat']]
df3.plot.scatter(x=0, y=1, s=1, alpha=0.02, figsize=(11, 11))

In [None]:
df4 = df.loc[:,['mcc','lat']]
df4.plot.scatter(x=0, y=1, s=3, alpha=0.5, figsize=(11, 11))

In [None]:
df_map = df[::10000] # 1/10000 に間引く

import folium
map = folium.Map(location=[df_map['lat'].mean(), df_map['lon'].mean()], zoom_start=2, width = 1000, height = 500)

count = 0
# データフレーム df_map の各行に対して地図上のマーカーを追加する
for index, row in df_map.iterrows():
 folium.Marker([row['lat'], row['lon']], popup = 'mcc:'+str(row['mcc'])+' '+str(row['area'])).add_to(map)
 count += 1
 if(count>1000): # 念の為。1000点以上だと動作困難になる。
 break
print(count)

map

In [None]:
# mcc の値が 440(日本の国番号)のだけ抜き出す
dfjp = df[df['mcc']==440]
dfjp

In [None]:
# さらに、created の時刻が 2022年12月のを抜き出す
from datetime import datetime
time_col = "created"
start_date = datetime(2022, 12, 1)
end_date = datetime(2022, 12, 31)

start_unixtime = int(start_date.timestamp())
end_unixtime = int(end_date.timestamp())

dfjp_2022_12 = dfjp[(dfjp[time_col] >= start_unixtime) & (dfjp[time_col] <= end_unixtime)]
dfjp_2022_12

In [None]:
df_map = dfjp_2022_12[1::20] # 間引き

import folium
map = folium.Map(location=[df_map['lat'].mean(), df_map['lon'].mean()], zoom_start=4, width = 1000, height = 500)

count = 0
for index, row in df_map.iterrows():
 dt = datetime.fromtimestamp(row['created'])
 dt_str = dt.strftime('%Y-%m-%d %H:%M:%S')
 folium.Marker([row['lat'], row['lon']], popup = 'net:'+str(row['net'])+' ' +dt_str).add_to(map)
 count += 1
 if (count>1000): # 念の為。1000点以上だと動作困難になる。
 break
print(count)

map

In [None]:
# 日本での2022年の各ネットワーク(通信会社)毎の月別の個数の推移
import matplotlib.pyplot as plt

# unixtime カラムを datetime 型に変換
dfjp['datetime'] = pd.to_datetime(dfjp['created'], unit='s')

# 2022年のデータに絞り込む(会社もある程度は限定)
df_2022 = dfjp[(dfjp['datetime'] >= '2022-01-01') & (dfjp['datetime'] < '2023-01-01') & (dfjp['net']<100) & (dfjp['net']>9)]

# 月別に集計する
count_by_month = df_2022.groupby([df_2022['datetime'].dt.strftime('%Y-%m'),'net'])['created'].count().unstack()

# グラフを描画する
# count_by_month.plot(kind='bar', figsize=(10,5),stacked=True)
count_by_month.plot(kind='line', figsize=(18,8), marker='o', linewidth=4)
plt.title('2022 Monthly')
plt.xlabel('Month')
plt.ylabel('Count')
plt.show()


In [None]:
# グラフの一部を検算
# dfjp[(dfjp['datetime']>='2022-05-01') & (dfjp['datetime']<'2022-06-01') &(dfjp['net']==10)]
# dfjp[(dfjp['datetime']>='2022-05-01') & (dfjp['datetime']<'2022-06-01')]