Pythonのさまざまなチャートを使用したデータの視覚化

データの視覚化は、グラフィック形式でのデータの表示です。膨大な量のデータを単純でわかりやすい形式で要約して提示することで、データの重要性を理解しやすくし、情報を明確かつ効果的に伝達するのに役立ちます。 さまざまなグラフをプロットするためのデータセットを考えてみます。

ヒストグラム: ヒストグラムは、特定の値の範囲内にあり、連続した一定の間隔で配置された特定の現象の発生頻度を表します。 以下のコードでは、年齢、収入、売上のヒストグラムがプロットされています。そのため、出力のこれらのプロットは、各属性の一意の各値の頻度を示しています。

🐶Pythonコードの例を示すで

# import pandas and matplotlib
import pandas as pd
import matplotlib.pyplot as plt

# create 2D array of table given above
data = [['E001', 'M', 34, 123, 'Normal', 350],
        ['E002', 'F', 40, 114, 'Overweight', 450],
        ['E003', 'F', 37, 135, 'Obesity', 169],
        ['E004', 'M', 30, 139, 'Underweight', 189],
        ['E005', 'F', 44, 117, 'Underweight', 183],
        ['E006', 'M', 36, 121, 'Normal', 80],
        ['E007', 'M', 32, 133, 'Obesity', 166],
        ['E008', 'F', 26, 140, 'Normal', 120],
        ['E009', 'M', 32, 133, 'Normal', 75],
        ['E010', 'M', 36, 133, 'Underweight', 40] ]

# dataframe created with
# the above data array
df = pd.DataFrame(data, columns = ['EMPID', 'Gender',  
                                    'Age', 'Sales',
                                    'BMI', 'Income'] )

# create histogram for numeric data
df.hist()

# show plot
plt.show()

🐶動画で動作確認してみよか?

動画で確認

2.縦棒グラフ: 縦棒グラフは、さまざまな属性間の比較を示すために使用されます。または、項目の比較を時間の経過とともに示すことができます。

🐶Pythonコードの例を示すで

# Dataframe of previous code is used here

# Plot the bar chart for numeric values
# a comparison will be shown between
# all 3 age, income, sales
df.plot.bar()

# plot between 2 attributes
plt.bar(df['Age'], df['Sales'])
plt.xlabel("Age")
plt.ylabel("Sales")
plt.show()

🐶動画で動作確認してみよか?

動画で確認

3.箱ひげ図 ボックスプロットは、最小値、最初の四分位数、中央値、三番目の四分位数、および最大値に基づく統計データのグラフィカル表現です。 ボックスプロットという用語は、グラフが上と下から伸びる線を持つ長方形のように見えるという事実から来ています。線が伸びているため、このタイプのグラフは箱ひげ図と呼ばれることがあります。分位数と中央値については、この分位数と中央値を参照してください。

🐶Pythonコードの例を示すで

# For each numeric attribute of dataframe
df.plot.box()

# individual attribute box plot
plt.boxplot(df['Income'])
plt.show()

🐶動画で動作確認してみよか?

動画で確認

4.円グラフ 円グラフは、静的な数値と、カテゴリが全体の一部を構成している様子を示しています。円グラフはパーセントで数値を表し、すべてのセグメントの合計は100%に等しい必要があります。

🐶Pythonコードの例を示すで

plt.pie(df['Age'], labels = {"A", "B", "C",
                             "D", "E", "F",
                             "G", "H", "I", "J"},

autopct ='% 1.1f %%', shadow = True)
plt.show()

plt.pie(df['Income'], labels = {"A", "B", "C",
                                "D", "E", "F",
                                "G", "H", "I", "J"},

autopct ='% 1.1f %%', shadow = True)
plt.show()

plt.pie(df['Sales'], labels = {"A", "B", "C",
                               "D", "E", "F",
                               "G", "H", "I", "J"},
autopct ='% 1.1f %%', shadow = True)
plt.show()

🐶動画で動作確認してみよか?

動画で確認

5.散布図 散布図は、2つの異なる変数間の関係を示し、分布の傾向を明らかにすることができます。さまざまなデータポイントがあり、データセットの類似点を強調したい場合に使用します。これは、外れ値を探すときやデータの分布を理解するときに役立ちます。

🐶Pythonコードの例を示すで

# scatter plot between income and age
plt.scatter(df['income'], df['age'])
plt.show()

# scatter plot between income and sales
plt.scatter(df['income'], df['sales'])
plt.show()

# scatter plot between sales and age
plt.scatter(df['sales'], df['age'])
plt.show()

動画で確認

🐶 🐍

Last Updated: 5/27/2019, 8:04:11 AM