import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

original_data = pd.read_csv("Penguins.csv")
original_data.head()

cleaned_data = original_data.copy()

cleaned_data.head(10)

cleaned_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 344 entries, 0 to 343
Data columns (total 7 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   species            344 non-null    object 
 1   island             344 non-null    object 
 2   culmen_length_mm   342 non-null    float64
 3   culmen_depth_mm    342 non-null    float64
 4   flipper_length_mm  342 non-null    float64
 5   body_mass_g        342 non-null    float64
 6   sex                334 non-null    object 
dtypes: float64(4), object(3)
memory usage: 18.9+ KB

cleaned_data['species'] = cleaned_data['species'].astype("category")
cleaned_data['sex'] = cleaned_data['sex'].astype("category")
cleaned_data['island'] = cleaned_data['island'].astype("category")

cleaned_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 344 entries, 0 to 343
Data columns (total 7 columns):
 #   Column             Non-Null Count  Dtype   
---  ------             --------------  -----   
 0   species            344 non-null    category
 1   island             344 non-null    category
 2   culmen_length_mm   342 non-null    float64 
 3   culmen_depth_mm    342 non-null    float64 
 4   flipper_length_mm  342 non-null    float64 
 5   body_mass_g        342 non-null    float64 
 6   sex                334 non-null    category
dtypes: category(3), float64(4)
memory usage: 12.3 KB

cleaned_data.query("culmen_length_mm.isna()")

cleaned_data.query("culmen_depth_mm.isna()")

cleaned_data.query("flipper_length_mm.isna()")

cleaned_data.query("body_mass_g.isna()")

cleaned_data.drop(3, inplace=True)
cleaned_data.drop(339, inplace=True)

cleaned_data.query("sex.isna()")

cleaned_data["species"].value_counts()

species
Adelie       151
Gentoo       123
Chinstrap     68
Name: count, dtype: int64

cleaned_data["island"].value_counts()

island
Biscoe       167
Dream        124
Torgersen     51
Name: count, dtype: int64

cleaned_data["sex"].value_counts()

sex
MALE      168
FEMALE    165
.           1
Name: count, dtype: int64

cleaned_data['sex'] = cleaned_data['sex'].cat.add_categories(['nan']).replace(".", 'nan')
#cleaned_data['sex']是分类（Categorical）类型，而 replace()方法的当前行为会隐式修改分类的类别（Categories）

C:\Users\25778\AppData\Local\Temp\ipykernel_2028\1051071439.py:1: FutureWarning: The behavior of Series.replace (and DataFrame.replace) with CategoricalDtype is deprecated. In a future version, replace will only be used for cases that preserve the categories. To change the categories, use ser.cat.rename_categories instead.
  cleaned_data['sex'] = cleaned_data['sex'].cat.add_categories(['nan']).replace(".", 'nan')

cleaned_data["sex"].value_counts()

sex
MALE      168
FEMALE    165
nan         1
Name: count, dtype: int64

cleaned_data.describe()

# 设置图表色盘为粉彩pastel
sns.set_palette('pastel')

cleaned_data

cleaned_data.groupby('species',observed=False)['island'].count()
#未来版本中observed的默认值从False改为True,因此要设置observed=False

species
Adelie       151
Chinstrap     68
Gentoo       123
Name: island, dtype: int64

species_count=cleaned_data['species'].value_counts()
species_count

species
Adelie       151
Gentoo       123
Chinstrap     68
Name: count, dtype: int64

plt.pie(species_count,autopct='%.1f%%',labels=species_count.index)
plt.show()

island_count=cleaned_data['island'].value_counts()
plt.pie(species_count,autopct='%.1f%%',labels=island_count.index)
plt.show()

sex_count=cleaned_data['sex'].value_counts()
plt.pie(sex_count,autopct='%.1f%%',labels=sex_count.index)
plt.show()

sns.countplot(cleaned_data,x='island',hue='species')
plt.show()

sns.countplot(cleaned_data,x='island',hue='sex')
plt.show()

sns.pairplot(cleaned_data)
plt.show()

sns.pairplot(cleaned_data,hue='species')
plt.show()

sns.pairplot(cleaned_data,hue='species',kind='reg')
plt.show()

sns.pairplot(cleaned_data,hue='species',kind='reg',plot_kws={'scatter_kws':{'alpha':0.3}})
plt.show()

sns.pairplot(cleaned_data,hue='sex')
plt.show()

	species	island	culmen_length_mm	culmen_depth_mm	flipper_length_mm	body_mass_g	sex
0	Adelie	Torgersen	39.1	18.7	181.0	3750.0	MALE
1	Adelie	Torgersen	39.5	17.4	186.0	3800.0	FEMALE
2	Adelie	Torgersen	40.3	18.0	195.0	3250.0	FEMALE
3	Adelie	Torgersen	NaN	NaN	NaN	NaN	NaN
4	Adelie	Torgersen	36.7	19.3	193.0	3450.0	FEMALE
5	Adelie	Torgersen	39.3	20.6	190.0	3650.0	MALE
6	Adelie	Torgersen	38.9	17.8	181.0	3625.0	FEMALE
7	Adelie	Torgersen	39.2	19.6	195.0	4675.0	MALE
8	Adelie	Torgersen	34.1	18.1	193.0	3475.0	NaN
9	Adelie	Torgersen	42.0	20.2	190.0	4250.0	NaN

	species	island	culmen_length_mm	culmen_depth_mm	flipper_length_mm	body_mass_g	sex
8	Adelie	Torgersen	34.1	18.1	193.0	3475.0	NaN
9	Adelie	Torgersen	42.0	20.2	190.0	4250.0	NaN
10	Adelie	Torgersen	37.8	17.1	186.0	3300.0	NaN
11	Adelie	Torgersen	37.8	17.3	180.0	3700.0	NaN
47	Adelie	Dream	37.5	18.9	179.0	2975.0	NaN
246	Gentoo	Biscoe	44.5	14.3	216.0	4100.0	NaN
286	Gentoo	Biscoe	46.2	14.4	214.0	4650.0	NaN
324	Gentoo	Biscoe	47.3	13.8	216.0	4725.0	NaN

	culmen_length_mm	culmen_depth_mm	flipper_length_mm	body_mass_g
count	342.000000	342.000000	342.000000	342.000000
mean	43.921930	17.151170	200.915205	4201.754386
std	5.459584	1.974793	14.061714	801.954536
min	32.100000	13.100000	172.000000	2700.000000
25%	39.225000	15.600000	190.000000	3550.000000
50%	44.450000	17.300000	197.000000	4050.000000
75%	48.500000	18.700000	213.000000	4750.000000
max	59.600000	21.500000	231.000000	6300.000000

	species	island	culmen_length_mm	culmen_depth_mm	flipper_length_mm	body_mass_g	sex
0	Adelie	Torgersen	39.1	18.7	181.0	3750.0	MALE
1	Adelie	Torgersen	39.5	17.4	186.0	3800.0	FEMALE
2	Adelie	Torgersen	40.3	18.0	195.0	3250.0	FEMALE
4	Adelie	Torgersen	36.7	19.3	193.0	3450.0	FEMALE
5	Adelie	Torgersen	39.3	20.6	190.0	3650.0	MALE
...	...	...	...	...	...	...	...
338	Gentoo	Biscoe	47.2	13.7	214.0	4925.0	FEMALE
340	Gentoo	Biscoe	46.8	14.3	215.0	4850.0	FEMALE
341	Gentoo	Biscoe	50.4	15.7	222.0	5750.0	MALE
342	Gentoo	Biscoe	45.2	14.8	212.0	5200.0	FEMALE
343	Gentoo	Biscoe	49.9	16.1	213.0	5400.0	MALE

可视化帕默群岛企鹅数据¶

分析目标¶

简介¶

读取数据¶

评估和清理数据¶

数据整齐度¶

数据干净度¶

处理缺失数据¶

处理重复数据¶

处理不一致数据¶

处理无效或错误数据¶

数据探索¶

企鹅种类比例¶

企鹅所属岛屿比例¶

企鹅性别比例¶

不同岛屿上的企鹅种类数量¶

不同岛屿上企鹅性别数量¶

根据种类查看数值之间的相关关系¶

根据性别查看数值之间的相关关系¶