← 返回博客

案例03:职称数据分析可视化

📑 目录

  1. 准备数据与数据结构定义
  2. 数据清洗与预处理
  3. 核心指标统计
  4. 可视化图表生成
  5. 交叉分析与深度洞察
  6. 生成分析报告
  7. 导出与复用

步骤1:准备数据与数据结构定义

定义数据字段结构

在 OpenClaw 对话中,描述你的数据结构,让AI生成模拟数据(用于测试流程)或读取现有文件:

我有一份历年职称数据,包含以下字段:

字段说明:
- 年份:申报年份(如2020、2021...)
- 姓名:申报人姓名
- 性别:男/女
- 年龄:申报时年龄
- 部门:所在部门/单位
- 学历:中专/大专/本科/硕士/博士
- 申报级别:初级/中级/副高级/正高级
- 申报专业:工程技术/经济/会计/政工/教育/卫生/其他
- 评审结果:通过/未通过/待定
- 工作年限:从事本专业工作年限
- 论文数量:发表论文数量
- 专利数量:专利/软著数量
- 获奖情况:获奖次数
- 申报方式:正常申报/破格申报

请检查这个数据结构是否合理,是否需要补充字段。

生成模拟数据(无真实数据时)

请帮我生成一份模拟职称数据,要求:

- 年份范围:2018-2025(共8年)
- 总人数:约2000条记录
- 数据分布要合理(符合实际职称评审规律):
  - 男女比例约 6:4
  - 学历分布:本科60%、硕士25%、博士5%、大专8%、中专2%
  - 申报级别:初级30%、中级40%、副高级22%、正高级8%
  - 通过率:初级85%、中级70%、副高级55%、正高级40%
  - 部门分布:工程技术35%、经济20%、会计15%、政工10%、教育12%、卫生8%

请生成 CSV 文件并保存到 ./data/title-review-data.csv

读取现有数据文件

如果有真实数据文件:

请读取文件 ./data/title-review-data.csv,执行以下操作:

1. 显示前10行数据
2. 显示总行数
3. 列出所有字段名
4. 检查每列的数据类型
5. 检查是否有缺失值(每列缺失数量和占比)
6. 报告数据整体质量

📌 数据格式:职称数据通常以 Excel/CSV 格式存在。以下为推荐的数据结构,如果你的数据字段不同,OpenClaw 会自动适配。

步骤2:数据清洗与预处理

数据清洗

请对 ./data/title-review-data.csv 进行数据清洗,生成 Python 脚本并执行:

清洗规则:
1. 缺失值处理:
   - 年龄缺失:用该部门/级别的中位数填充
   - 工作年限缺失:用年龄-22估算
   - 论文/专利/获奖缺失:填充为0
   - 其他关键字段缺失的行:标记并单独导出

2. 异常值处理:
   - 年龄 < 20 或 > 65:标记异常
   - 工作年限 > 年龄-16:标记异常
   - 论文数量 > 100:标记异常

3. 格式统一:
   - 性别统一为"男"/"女"
   - 学历统一为标准名称
   - 评审结果统一为"通过"/"未通过"

4. 衍生字段:
   - 计算"通过率"标记(通过=1, 未通过=0)
   - 计算"年龄分段":30岁以下/30-39/40-49/50以上
   - 计算"学历等级编码":中专=1, 大专=2, 本科=3, 硕士=4, 博士=5

清洗后的数据保存到 ./data/title-review-clean.csv
异常数据单独导出到 ./data/title-review-anomaly.csv

验证清洗结果

请检查清洗后的数据 ./data/title-review-clean.csv:

1. 总行数与原始数据对比
2. 各字段是否还有缺失值
3. 异常值是否已处理
4. 衍生字段是否正确生成
5. 数据分布是否合理

步骤3:核心指标统计

年度申报与通过统计

请基于清洗后的数据,统计以下核心指标:

1. 每年申报总人数、通过人数、通过率
2. 各申报级别的申报人数和通过率
3. 各专业的申报人数和通过率
4. 各部门的申报人数和通过率

请生成 Python 脚本,执行后将结果输出为表格。

人口统计学特征统计

请统计以下人口统计学指标:

1. 性别分布(总体 + 分级别)
2. 年龄分布(总体 + 分级别)
   - 平均年龄、中位数、最大/最小
   - 各年龄段占比
3. 学历分布(总体 + 分级别)
4. 平均工作年限(分级别、分专业)

请生成 Python 脚本,执行后输出统计表格。

职称评审质量指标

请统计以下评审质量相关指标:

1. 论文数量分布(平均、中位数、分级别对比)
2. 专利/软著数量分布
3. 获奖情况分布
4. 破格申报占比及通过率
5. 各评审结果的占比

请生成 Python 脚本,执行后输出统计表格。

步骤4:可视化图表生成

趋势类图表

请基于 ./data/title-review-clean.csv,生成以下趋势图表,保存到 ./data/charts/ 目录:

图表1:年度申报人数与通过率趋势(折线+柱状组合图)
- X轴:年份(2018-2025)
- 左Y轴:申报人数(柱状图)
- 右Y轴:通过率(折线图,带数据标签)
- 标题:"历年职称申报人数与通过率趋势"

图表2:各申报级别年度变化趋势(堆叠面积图)
- X轴:年份
- Y轴:申报人数
- 分层:初级/中级/副高级/正高级
- 标题:"各申报级别年度申报人数变化"

图表3:各部门年度申报人数变化(多折线图)
- X轴:年份
- 每条线代表一个部门
- 标题:"各部门职称申报人数年度趋势"

分布类图表

请生成以下分布类图表,保存到 ./data/charts/ 目录:

图表4:申报级别分布(环形图/饼图)
- 显示各级别占比
- 标注人数和百分比
- 标题:"职称申报级别分布"

图表5:年龄分布直方图
- X轴:年龄段(25-30, 31-35, 36-40, 41-45, 46-50, 51-55, 56+)
- Y轴:人数
- 按级别分色叠加
- 标题:"申报人员年龄分布"

图表6:学历分布(横向柱状图)
- 按学历从高到低排列
- 标注人数和占比
- 按级别分色
- 标题:"申报人员学历分布"

对比类图表

请生成以下对比类图表,保存到 ./data/charts/ 目录:

图表7:各专业通过率对比(横向柱状图)
- 按通过率从高到低排序
- 标注通过率和申报人数
- 标注整体平均通过率参考线
- 标题:"各专业职称评审通过率对比"

图表8:性别与申报级别关系(分组柱状图)
- X轴:申报级别
- 每组两根柱子:男/女
- 标题:"各申报级别性别分布"

图表9:学历与通过率关系(柱状+折线组合图)
- X轴:学历等级
- 柱状图:各学历申报人数
- 折线图:各学历通过率
- 标题:"学历与职称评审通过率关系"

图表10:各部门申报与通过率(雷达图或分组柱状图)
- 展示各部门申报人数和通过率
- 标题:"各部门职称申报与通过情况"

完整图表生成脚本(一键执行)

如果需要一次性生成所有图表,使用以下指令:

请生成一个完整的 Python 脚本,基于 ./data/title-review-clean.csv 生成以下所有图表,保存到 ./data/charts/ 目录:

1. 年度申报人数与通过率趋势(折线+柱状组合图)
2. 各申报级别年度变化趋势(堆叠面积图)
3. 各部门年度申报人数变化(多折线图)
4. 申报级别分布(环形图)
5. 年龄分布直方图(按级别分色)
6. 学历分布(横向柱状图,按级别分色)
7. 各专业通过率对比(横向柱状图)
8. 性别与申报级别关系(分组柱状图)
9. 学历与通过率关系(柱状+折线组合图)
10. 各部门申报与通过率(分组柱状图)

要求:
- 所有图表使用中文标题和标签
- 配色方案统一(使用协调的调色板)
- 图片尺寸 1200×800,DPI 150
- 图表简洁清晰,避免过度装饰
- 生成完成后列出所有文件名

📌 前置条件:确保系统安装了中文字体。yum install -y wqy-microhei-fonts 或 apt install -y fonts-wqy-microhei。

步骤5:交叉分析与深度洞察

通过率影响因素分析

请对职称评审通过率进行交叉分析:

1. 学历 vs 通过率(按级别分层)
2. 年龄 vs 通过率(按年龄段)
3. 工作年限 vs 通过率(分段统计)
4. 论文数量 vs 通过率(0篇/1-2篇/3-5篇/5篇以上)
5. 专利数量 vs 通过率
6. 破格申报 vs 正常申报 的通过率对比

请生成 Python 脚本,执行后输出交叉分析表格。

年度变化趋势分析

请分析以下年度变化趋势:

1. 申报人数的年度增长率
2. 通过率的年度变化(上升/下降/平稳)
3. 申报级别的年度结构变化(是否高级别申报比例增加)
4. 学历结构的年度变化(是否高学历占比提升)
5. 各部门申报人数的年度变化(是否有部门申报积极性变化)

请生成 Python 脚本,计算并输出以上趋势指标。

生成洞察图表

请生成以下深度分析图表,保存到 ./data/charts/ 目录:

图表11:通过率影响因素热力图
- 行:影响因素(学历、年龄、工作年限、论文数、专利数)
- 列:申报级别
- 值:通过率
- 使用热力图配色

图表12:申报人数增长率趋势(柱状图)
- X轴:年份
- Y轴:同比增长率(%)
- 标注正负增长

图表13:高通过率人群画像(堆积柱状图)
- 展示通过率最高的人群特征组合
- 如:本科+35-40岁+5年工作经验+2篇论文

步骤6:生成分析报告

生成完整分析报告

请基于以上所有统计数据和图表,生成一份完整的《历年职称评审数据分析报告》:

报告结构:

一、数据概况
  - 数据来源、时间范围、样本量
  - 数据质量说明

二、总体情况
  - 历年申报人数变化趋势
  - 总体通过率及变化
  - 申报级别分布
  - 申报人基本特征(性别、年龄、学历)

三、分级分析
  - 各级别申报人数与通过率
  - 各级别申报人特征差异
  - 各级别通过率变化趋势

四、分专业分析
  - 各专业申报情况
  - 各专业通过率对比
  - 专业间差异分析

五、分部门分析
  - 各部门申报积极性
  - 各部门通过率对比
  - 部门间差异分析

六、通过率影响因素分析
  - 学历、年龄、工作年限、论文、专利等因素的影响
  - 关键发现

七、年度变化与趋势预测
  - 历年变化趋势总结
  - 未来趋势预判

八、建议
  - 针对申报人的建议
  - 针对管理部门的建议

要求:
- 每个章节引用对应的数据和图表
- 关键数据加粗标注
- 语言简洁,适合向管理层汇报
- 总字数3000-5000字

生成精简版汇报PPT大纲

请基于以上完整报告,生成一份精简版汇报PPT大纲:

要求:
- 10-12页
- 每页一个核心观点
- 标注每页应配什么图表
- 每页3-5个要点

格式:
第1页:封面 — 历年职称评审数据分析报告
第2页:数据概况 — 样本量、时间范围、数据质量
第3页:申报人数趋势 — 配图1 + 核心发现
...

生成执行摘要(1页版)

请生成一份1页纸的执行摘要(Executive Summary),包含:

- 核心数据(3-5个关键数字)
- 主要发现(3条)
- 关键建议(2条)

适合直接发给领导快速阅读。

步骤7:导出与复用

导出报告和图表

请将以下文件整理并导出:

1. 完整分析报告 → Word 文档(.docx)
   保存路径:./data/reports/职称评审数据分析报告_完整版.docx

2. 精简版PPT大纲 → Markdown 文件
   保存路径:./data/reports/职称评审PPT大纲.md

3. 执行摘要 → Word 文档(.docx)
   保存路径:./data/reports/职称评审执行摘要.docx

4. 所有图表 → 打包为 ZIP
   保存路径:./data/reports/职称评审图表.zip

5. 清洗后的数据 → CSV
   保存路径:./data/reports/职称评审数据_清洗后.csv

6. 统计分析结果表格 → Excel(多sheet)
   保存路径:./data/reports/职称评审统计表.xlsx

沉淀为可复用技能

将整套分析流程沉淀为技能文件,下次有新数据时直接调用:

请帮我创建一个技能文件,名为"职称数据分析",包含以下流程:

1. 数据读取与质量检查
2. 数据清洗规则(缺失值处理、异常值检测、格式统一)
3. 核心指标统计(年度统计、分级统计、分专业统计、分部门统计)
4. 图表生成清单(13张标准图表)
5. 报告生成模板(完整报告 + PPT大纲 + 执行摘要)
6. 导出规范

创建后,下次只需说:
"用职称数据分析技能,处理 ./data/新数据.csv"
即可完成全流程。

目录结构参考

完整项目目录结构:

data/
├── title-review-data.csv          ← 原始数据
├── title-review-clean.csv         ← 清洗后数据
├── title-review-anomaly.csv       ← 异常数据
├── charts/
│   ├── 01-年度申报人数与通过率趋势.png
│   ├── 02-各申报级别年度变化趋势.png
│   ├── 03-各部门年度申报人数变化.png
│   ├── 04-申报级别分布.png
│   ├── 05-年龄分布直方图.png
│   ├── 06-学历分布.png
│   ├── 07-各专业通过率对比.png
│   ├── 08-性别与申报级别关系.png
│   ├── 09-学历与通过率关系.png
│   ├── 10-各部门申报与通过率.png
│   ├── 11-通过率影响因素热力图.png
│   ├── 12-申报人数增长率趋势.png
│   └── 13-高通过率人群画像.png
└── reports/
    ├── 职称评审数据分析报告_完整版.docx
    ├── 职称评审PPT大纲.md
    ├── 职称评审执行摘要.docx
    ├── 职称评审图表.zip
    ├── 职称评审数据_清洗后.csv
    └── 职称评审统计表.xlsx