pandas DataFrameの内容を確認する:shape・info・head などの基本操作

pandas python 1

pandasでDataFrameを扱う際、まず大切なのは「中身を正しく把握すること」です。行数や列数、データ型、欠損値の有無などを確認せずに処理を進めると、思わぬエラーや集計ミスにつながります。この記事では、shapeinfo()head() など、DataFrameの状態を素早く確認するための基本操作を中心に、実務や学習の初期段階で必ず押さえておきたいポイントを紹介します。

Pandasの導入記事は以下をご参照ください。

Python in Excelにおけるpandas DataFrameの基本 – Lean Data Office

本記事では、簡単なデータフレームの例を用いて、その中身を確認する基本操作について説明をします。

今回は一例としてScoresシートに含まれるデータをSheet1シート内でDataFrameに渡してPandasの機能を使ってデータフレームの内容を確認する方法を見ていきます。

Scoresシートの内容はランダムな数値をMusic, Science, History列に埋めているだけで特に意味はありません。今回の記事を書くにあたってはこのシート内容で十分です。

image

Sheet1シート内でScoresシートのデータを’scores’にDataFrameとして取り込みました。

image

データ概要を把握する:describe

describeメソッドはデータの概要を一瞬で把握するためのpandasの機能です。

scoresに対してdescribeメソッドを使ってみましょう。

image
image

実行するとPythonオブジェクトでの表示になりますので、上記のようにDataFrameのみ表示されますが、Excel値に変換すると、

image

データの詳細を確認することができます。

ここでは、データの数、平均値、標準偏差(ばらつき)、中央値(上位下位25%境界)、最大値、最小値を示します。

行数と列数を把握する:shape

image
scores.shape

shapeは属性(attribute)で値をそのまま参照します。実行すると、Pythonオブジェクトはtupleを返します。

image

Excel値に変換すると、

image

行の数と列の数を返します。

データフレームのサイズを把握する:size

shapeと同様にsizeも属性です。

image

実行すると、’176’が返りますが、これは行数と列数を掛け合わせた数字です。176のデータがこのデータフレームに存在していることがわかります。

image

列に対する簡単な操作を行う:columns

columnsも属性で、列名を出したり、列名をリスト化したり、列名を加工することができます。

ここでは.valuesで列名を出力してみます。

image

実行し、Excel値に変換すると、

image

列名のリストを出力できました。

データ型を確認する:dtypes

dtypesは各列に含まれる値のデータ型を出力できます。

image

実行すると、各列のデータ型を示します。Regionはオブジェクト(中身は何でもいいPythonオブジェクト)、Music以下はFloatで浮動小数を示します。

image

データの概要をパネルで確認する:info

infoメソッドはdescribeに近いですが、画面右のパネル(Diagnositic Panel)に情報を表示します。

image

実行するとセルには’None’が表示されますが画面右で必要な情報を確認できます。

image
image

データフレームの内容を参照する

ここでは、平均値、最大値、最小値をデータフレームから参照する方法を例にデータフレーム内のデータを細かく参照する方法を学びます。

scoresの”History”列から、平均値をとってきます。

scores["History"].mean()
image

実行結果は”History”列に含まれる数字の平均値になります。

image

また以下の方法で、最小値

scores["History"].min()

最大値

scores["History"].max()

を出力ができます。

image

また、この手法は、複数の列に対しても実行が可能です。

下のようにリストに渡して実行すると、

image

それぞれの中央値(median)を出力することができます。

image

データフレームの数行を確認する:head, tail

head、tailメソッドはデータフレームの頭かお尻からの数行を出力します。これによって一部のデータを確認できます。

image

headメソッドの引数に数字を渡すと、その数字分の行を表示させます(デフォルトでは5行)

image
image

tailも同様ですが、データはおしりからの数行ということになります。

image

ユニークな値を参照する:unique, value_count

uniqueメソッドでは、所定の範囲のユニークな値を返します。

下の例では”Region”列に含まれるユニークな値を確認します。

image

実行し、Excel値に変換すると、

image

Region列内のユニークな値だけ参照することに成功しました。

またvalue_countsメソッドを使用することでそれぞれの値に対してどれだけのデータが含まれるかを確認することも可能です。

image
image

まとめ

DataFrameの中身を確認する基本操作は、データ分析の土台となる重要なステップです。shapeで全体像をつかみ、info()で構造や欠損を確認し、head()tail()で実データの並びを目で確かめることで、安全かつ効率的に次の処理へ進めます。これらを習慣化することで、データ理解の精度が上がり、トラブルの予防にもつながります。

筋トレとオートメーションが趣味。 モバイルアプリ個人開発者。 データ処理・可視化とレポートにハマり備忘録と情報共有のためにブログ開設し運営している。