Written By mathew

データサイエンス基本コマンド-Pythonとjupyter-

ALL DataScience Study

データサイエンスを学ぶために、SIGNATEを始めました。
その中でjupyterでpythonのコマンドを入力するにあたり、復習も兼ねてメモしてみました。

見てくださった方のお役に立てたら幸いです。

データの読み込み

インポート

import pandas as pd
import numpy as np
from matplotlib import pyplot
%matplotlib inline
from sklearn.linear_model import LinearRegression as LR

ファイルの読み込み

AAA = pd.read_csv("aaa.csv")

データ参照

データの中身を見る

AAA.head()
()の中に数字を入れると上から、入れた数字の行分表示する。

データを全て見る

AAA

最終行から見る

AAA.tail()
()の中に数字を入れると上から、入れた数字の行分表示する。

行数と列数を参照する

AAA.shape

基本統計量を確認する

AAA.describe()
基本統計量とは、対象の項目数や平均値、最小値や最大値などを一覧としたものです。

データの型を確認する

AAA.info()
objectは、文字列・int64は数値・float64は小数点のある数値です。

一つのカラムを表示する

AAA["y"]

二つのカラムを表示する

AAA[["y","volume"]]

平均値を見る

AAA["y"].mean()

中央値を見る

AAA["y"].medium()

対象のカラムの値が、100以上のデータを見る

AAA[AAA["y"]>=100]

対象のカラムが、◯となっているデータを見る

AAA[AAA["y"]=="◯"]

対象のカラムが、◯となっているデータをxのカラムで昇順・降順にして見る

昇順AAA[AAA["y"]=="◯"].sort_values(by="x")
降順AAA[AAA["y"]=="◯"].sort_values(by="x",ascending=False)

対象のカラムが◯の時のxの平均値を見る

AAA[AAA["y"]=="◯"]["x"].mean()