pandasでDataFrameを扱う際、まず大切なのは「中身を正しく把握すること」です。行数や列数、データ型、欠損値の有無などを確認せずに処理を進めると、思わぬエラーや集計ミスにつながります。この記事では、shape・info()・head() など、DataFrameの状態を素早く確認するための基本操作を中心に、実務や学習の初期段階で必ず押さえておきたいポイントを紹介します。
Pandasの導入記事は以下をご参照ください。
Python in Excelにおけるpandas DataFrameの基本 – Lean Data Office
本記事では、簡単なデータフレームの例を用いて、その中身を確認する基本操作について説明をします。
今回は一例としてScoresシートに含まれるデータをSheet1シート内でDataFrameに渡してPandasの機能を使ってデータフレームの内容を確認する方法を見ていきます。
Scoresシートの内容はランダムな数値をMusic, Science, History列に埋めているだけで特に意味はありません。今回の記事を書くにあたってはこのシート内容で十分です。

Sheet1シート内でScoresシートのデータを’scores’にDataFrameとして取り込みました。

データ概要を把握する:describe
describeメソッドはデータの概要を一瞬で把握するためのpandasの機能です。
scoresに対してdescribeメソッドを使ってみましょう。


実行するとPythonオブジェクトでの表示になりますので、上記のようにDataFrameのみ表示されますが、Excel値に変換すると、

データの詳細を確認することができます。
ここでは、データの数、平均値、標準偏差(ばらつき)、中央値(上位下位25%境界)、最大値、最小値を示します。
行数と列数を把握する:shape

scores.shape
shapeは属性(attribute)で値をそのまま参照します。実行すると、Pythonオブジェクトはtupleを返します。

Excel値に変換すると、

行の数と列の数を返します。
データフレームのサイズを把握する:size
shapeと同様にsizeも属性です。

実行すると、’176’が返りますが、これは行数と列数を掛け合わせた数字です。176のデータがこのデータフレームに存在していることがわかります。

列に対する簡単な操作を行う:columns
columnsも属性で、列名を出したり、列名をリスト化したり、列名を加工することができます。
ここでは.valuesで列名を出力してみます。

実行し、Excel値に変換すると、

列名のリストを出力できました。
データ型を確認する:dtypes
dtypesは各列に含まれる値のデータ型を出力できます。

実行すると、各列のデータ型を示します。Regionはオブジェクト(中身は何でもいいPythonオブジェクト)、Music以下はFloatで浮動小数を示します。

データの概要をパネルで確認する:info
infoメソッドはdescribeに近いですが、画面右のパネル(Diagnositic Panel)に情報を表示します。

実行するとセルには’None’が表示されますが画面右で必要な情報を確認できます。


データフレームの内容を参照する
ここでは、平均値、最大値、最小値をデータフレームから参照する方法を例にデータフレーム内のデータを細かく参照する方法を学びます。
scoresの”History”列から、平均値をとってきます。
scores["History"].mean()

実行結果は”History”列に含まれる数字の平均値になります。

また以下の方法で、最小値
scores["History"].min()
最大値
scores["History"].max()
を出力ができます。

また、この手法は、複数の列に対しても実行が可能です。
下のようにリストに渡して実行すると、

それぞれの中央値(median)を出力することができます。

データフレームの数行を確認する:head, tail
head、tailメソッドはデータフレームの頭かお尻からの数行を出力します。これによって一部のデータを確認できます。

headメソッドの引数に数字を渡すと、その数字分の行を表示させます(デフォルトでは5行)


tailも同様ですが、データはおしりからの数行ということになります。

ユニークな値を参照する:unique, value_count
uniqueメソッドでは、所定の範囲のユニークな値を返します。
下の例では”Region”列に含まれるユニークな値を確認します。

実行し、Excel値に変換すると、

Region列内のユニークな値だけ参照することに成功しました。
またvalue_countsメソッドを使用することでそれぞれの値に対してどれだけのデータが含まれるかを確認することも可能です。


まとめ
DataFrameの中身を確認する基本操作は、データ分析の土台となる重要なステップです。shapeで全体像をつかみ、info()で構造や欠損を確認し、head()やtail()で実データの並びを目で確かめることで、安全かつ効率的に次の処理へ進めます。これらを習慣化することで、データ理解の精度が上がり、トラブルの予防にもつながります。