データサイエンス基本コマンド-Pythonとjupyter-
データサイエンスを学ぶために、SIGNATEを始めました。
その中でjupyterでpythonのコマンドを入力するにあたり、復習も兼ねてメモしてみました。
見てくださった方のお役に立てたら幸いです。
データの読み込み
インポート
import pandas as pd
import numpy as np
from matplotlib import pyplot
%matplotlib inline
from sklearn.linear_model import LinearRegression as LR
ファイルの読み込み
AAA = pd.read_csv("aaa.csv")
データ参照
データの中身を見る
AAA.head()
()の中に数字を入れると上から、入れた数字の行分表示する。
データを全て見る
AAA
最終行から見る
AAA.tail()
()の中に数字を入れると上から、入れた数字の行分表示する。
行数と列数を参照する
AAA.shape
基本統計量を確認する
AAA.describe()
基本統計量とは、対象の項目数や平均値、最小値や最大値などを一覧としたものです。
データの型を確認する
AAA.info()
objectは、文字列・int64は数値・float64は小数点のある数値です。
一つのカラムを表示する
AAA["y"]
二つのカラムを表示する
AAA[["y","volume"]]
平均値を見る
AAA["y"].mean()
中央値を見る
AAA["y"].medium()
対象のカラムの値が、100以上のデータを見る
AAA[AAA["y"]>=100]
対象のカラムが、◯となっているデータを見る
AAA[AAA["y"]=="◯"]
対象のカラムが、◯となっているデータをxのカラムで昇順・降順にして見る
昇順AAA[AAA["y"]=="◯"].sort_values(by="x")
降順AAA[AAA["y"]=="◯"].sort_values(by="x",ascending=False)
対象のカラムが◯の時のxの平均値を見る
AAA[AAA["y"]=="◯"]["x"].mean()