msno.matrix(df, labels=True)

df.drop(columns='subTitle', inplace=True)

plt.figure(figsize=(8,5))
area_counts=area_value_counts.reset_index()
area_counts.columns=['area','count']
sns.barplot(area_counts, x='area', y='count', palette='viridis')
plt.yscale('log')  
plt.title('各地区动漫番剧数量分布（对数刻度）')
plt.xlabel('地区')
plt.ylabel('动漫番剧数量（对数）')
plt.show()

plt.figure(figsize=(6,6))
most_area=area_counts[area_counts['count']>25]
other=pd.DataFrame({
    'area':['其他'],
    'count':[area_counts[area_counts['count']<=25]['count'].sum()]
})
plot_data=pd.concat([most_area,other])
plt.pie(
    plot_data["count"],
    labels=plot_data['area'],
    autopct='%.1f%%',
    colors=plt.cm.Pastel1.colors,
    pctdistance=0.9,
    startangle=140
        )
plt.title('B站动漫番剧地区分布(数量≤25的归为\'其他\')')
plt.show()

plt.figure(figsize=(8,5))
sns.histplot(df['score'],bins=20,kde=True,color='steelblue')
plt.title('动漫番剧评分的密度分布和直方图')
plt.xlabel('评分')
plt.ylabel('番剧数量')
plt.show

grouped=df.groupby('time').agg({'title':'count','score':'mean'}).reset_index()
grouped = grouped[(grouped['time'] >= 1980) & (grouped['time'] <= 2020)]
fig,ax1=plt.subplots(figsize=(10,6))
ax2=ax1.twinx()
ax1.bar(grouped['time'],grouped['title'],color='skyblue',label='番剧数量')
ax2.plot(grouped['time'],grouped['score'],color='orange',label='平均评分',marker='o')
ax1.set_xlabel('年份')
ax1.set_ylabel('番剧数量')
ax2.set_ylabel('平均评分')
ax1.legend()
ax2.legend()
plt.title('每年动漫番剧数量与平均评分趋势')
plt.show()

grouped=df.groupby('time').agg({'title':'count','order':'sum'}).reset_index()
grouped = grouped[(grouped['time'] >= 1980) & (grouped['time'] <= 2020)]
fig,ax1=plt.subplots(figsize=(10,6))
ax2=ax1.twinx()
ax1.plot(grouped['time'],grouped['title'],color='skyblue',label='番剧数量',marker='o')
ax2.plot(grouped['time'],grouped['order'],color='coral',label='追番人数',marker='o')
ax1.set_xlabel('年份')
ax1.set_ylabel('番剧数量')
ax2.set_ylabel('追番人数')
ax1.legend(loc='upper left')
ax2.legend(loc='upper right')
plt.title('每年动漫番剧数量与追番人数趋势')
plt.show()

plt.figure(figsize=(8,5))
sns.scatterplot(data=df,x='order',y='score',alpha=0.8,palette='Set2',hue='area',size='order',sizes=(20,200))
plt.title='评分与追番人数关系(气泡大小=追番人数)'
plt.xlabel('追番人数(万)')
plt.ylabel=('评分')
plt.legend(bbox_to_anchor=(1.05,1),loc='upper left')
plt.tight_layout()
plt.show()

import re
from wordcloud import WordCloud
import pandas as pd
import matplotlib.pyplot as plt
font_path='./simhei.ttf' 
def clean_type(text):
    """清洗类型内部文本，保留中英文并去除特殊符号"""
    if pd.isna(text):
        return ''
    return re.sub(r'[^\u4e00-\u9fa5a-zA-Z]', '', str(text)).strip()

def get_type_counts(df):
    types = df['table'].dropna().str.split(' ', expand=True).stack()
    cleaned = types.apply(clean_type)
    return cleaned[~cleaned.isin(['未知', '其他']) & (cleaned != '')].value_counts()

df['score'] = pd.to_numeric(df['score'], errors='coerce')

# 全局词云和高分词云
all_freq = get_type_counts(df)
high_freq = get_type_counts(df[df['score'] >= 9.5])

# 第一张图：所有番剧和评分≥9.5的词云
fig1, axes1 = plt.subplots(1, 2, figsize=(10, 4))
for ax, freq, title in zip(axes1, [all_freq, high_freq], ['所有番剧类型', '评分≥9.5类型']):
    wc = WordCloud(width=800, height=400, background_color='black', font_path=font_path).generate_from_frequencies(freq.to_dict())
    ax.imshow(wc)
    ax.set_title(f'{title}词云', fontsize=16)
    ax.axis('off')

plt.tight_layout()
plt.show()

time_ranges = [
    ('1980-1995', (1980, 1995)),
    ('1995-2010', (1995, 2010)),
    ('2010-2020', (2010, 2020))
]

# 第二张图：三个时间段的词云
fig2, axes2 = plt.subplots(1, 3, figsize=(18, 5))
for ax, (time_range, (start, end)) in zip(axes2, time_ranges):
    time_df = df[(df['time'] >= start) & (df['time'] <= end)]
    time_freq = get_type_counts(time_df)
    
    wc = WordCloud(width=800, height=400, background_color='black', 
                  font_path=font_path).generate_from_frequencies(time_freq.to_dict())
    ax.imshow(wc)
    ax.set_title(f'{time_range}年份番剧类型词云', fontsize=16)
    ax.axis('off')

plt.tight_layout()
plt.show()

print("=== 各分组类型出现次数统计 ===")

模块	描述
数据收集	使用公开合法接口、构建爬虫
数据清洗	缺失值处理与异常值修正等
数据分析	多因素统计分析与可视化呈现

分析模块	所需库名	作用描述
数据采集	`requests`	封装 HTTP 请求，适配 B 站反爬机制。
	`BeautifulSoup`	解析 HTML 文档，精确查询番剧信息（标题、评分\追番人数等）
数据处理	`pandas`	基于numpy的重要工具，可高效进行数值计算
	`numpy`	用于数据清洗和数据的初步分析
可视化	`matplotlib`	基础绘图库，可自定义配色与样式
	`seaborn`	增强图表美观性，简化复杂图表的绘制过程。
	`wordcloud`	生成词云图，直观展示番剧类型高频词汇及主题演化
	`missingno`	可视化缺失值分布，有助于判断数据完整性
辅助工具	`re`	正则表达式处理文本数据
	`json`	支持与 B 站 API 交互及结果的存储。

序号	title	subTitle	score	order	time	table	area
0	鬼灭之刃刀匠村篇	信念锻刃，尽斩恶鬼	9.2	1564.5万追番	2023-06-03 20:00:00	漫画改奇幻热血战斗	日本
1	鬼灭之刃游郭篇	斩断鬼所栖身的夜	9.7	1409.3万追番	2022-03-05 20:00:00	漫画改热血战斗奇幻	日本
2	鬼灭之刃无限列车篇	潜入无限的梦境中	9.8	1333万追番	2021-11-17 20:00:00	漫画改热血战斗奇幻	日本
3	鬼灭之刃	谁都斩不断的羁绊	9.7	1267.4万追番	2019-04-07 00:00:00	漫画改战斗热血声控	日本
4	咒术回战第二季	天上天下，唯我独尊	9.4	1242.3万追番	2023-08-24 20:00:00	漫画改热血战斗奇幻	日本

评分区间	作品评价
9.9	神作
≥9.5	整体优秀，有微小瑕疵
≥9.0	质量过关，无需深究逻辑
<8.0	存在明显制作问题

一、项目概述¶

1.1 项目背景¶

数据特征¶

1.2 可视化内容¶

1.3 技术实现¶

功能模块¶

技术支持¶

二、 数据预处理¶

2.1 数据获取过程说明¶

初始爬虫方案¶

最终数据来源¶

2.2 数据清洗¶

用图形可视化方式展示 df 中缺失值（NaN）的位置,快速观察缺失数据的分布、模式等特性.¶

统计每一列中有多少个缺失值（NaN）,便于进一步填补或删除.¶

缺失值处理¶

1. subTitle列（副标题）¶

2. score列（评分）¶

3. table列（类型）¶

数据格式处理¶

1.order列（排名）¶

2. time列（时间）¶

将清洗好的数据放入excel文件中,再次统计每一列中有多少个缺失值（NaN）¶

table为NaN数小于55,说明在清除score为NaN的行时或清除重复的title时,同时清空了table为NaN的行¶

数据清洗完成,接下来开始数据分析¶

三、数据分析¶

3.1 动漫番剧地区分布条形图¶

3.2 动漫番剧地区分布扇形图¶

主要国家占比（扇形图）:¶

对数柱状图扩展¶

总结：扇形图反映整体，对数柱状图反映细节，两者结合可以全面了解行业分布。¶

3.3 动漫番剧评分密度和直方分布图¶

评分分布分析¶

评分偏高的原因¶

评分参考标准(B站用户约定俗成的特色指标)¶

3.4 动漫番剧数量和评分趋势图¶

动漫番剧与观众趋势分析（1980-2020）¶

产量与观众规模¶

产量与作品质量关系¶

受众规模与作品质量¶

3.5 动漫番剧类型词云对比¶

动漫番剧类型词云图分析¶

所有番剧与高分番剧对比¶

不同时期类型演变¶

多维演化动因¶

四、结论与建议¶

调查的主要发现¶

动漫行业启示¶

调查的局限与展望¶

本项目表明，B站动漫已形成独特生态，其类型演变反映了当代中国年轻观众的审美变迁。¶

未来随着国产动漫的崛起和各大媒体竞争加剧，这一格局可能面临挑战与重构，值得持续跟踪调查。¶

二、数据预处理¶