← 返回博客

案例02:数据整理协助

📑 目录

  1. 模块A:题库整理与标准化
  2. 模块B:公式转换
  3. 模块C:图片批量化处理
  4. 模块D:数据分析辅助

模块A:题库整理与标准化

将来源不一、格式混乱的题库数据统一整理为标准格式,支持分类、去重、难度标注。

定义目标标准格式

先确定输出格式,再让AI按此标准整理。推荐JSON格式:

{
  "question_id": "Q001",
  "type": "single_choice",
  "difficulty": 1,
  "category": "AI基础",
  "question": "什么是人工智能?",
  "options": {
    "A": "机器智能",
    "B": "人类智慧",
    "C": "自然力量",
    "D": "以上都不是"
  },
  "answer": "A",
  "explanation": "人工智能是指由机器展现出的智能行为..."
}

整理单份混乱题库

在 OpenClaw 对话窗口中,粘贴原始数据并输入以下指令:

我有一份混乱的题库数据,请帮我整理为标准格式。

【原始数据】
(粘贴你的题库数据)

【要求】
1. 识别每道题的题型(单选/判断/填空/多选)
2. 统一选项格式为大写字母A/B/C/D
3. 将难度统一为1-5的数字等级(★→3,简单→1,中等→3,困难→5)
4. 为每道题添加分类标签
5. 检查是否有重复题目,标记出来
6. 输出为标准JSON格式,保存到文件

请逐题分析,给出整理后的结果。

批量处理多份题库文件

有大量题库文件时,让AI生成处理脚本:

请帮我写一个 Python 脚本,批量处理题库文件:

需求:
1. 读取 ./raw-questions/ 目录下所有 .txt 和 .csv 文件
2. 自动识别题型
3. 标准化格式(参考上面的JSON标准)
4. 去重(基于题目内容相似度 > 90%)
5. 输出到 ./standard-questions/ 目录
6. 生成统计报告(各题型数量、难度分布、分类分布)

请生成完整可运行的脚本。

脚本生成后,让 OpenClaw 直接执行:

请运行这个脚本,并告诉我执行结果。

题库质量检查

整理完成后,让AI做质量审查:

请对整理后的题库做质量检查:

1. 检查每道题的选项数量是否合理(单选题应为4个选项)
2. 检查答案是否在选项范围内
3. 检查是否有题干不完整或明显的OCR错误
4. 检查难度分布是否合理(不应全部为同一难度)
5. 列出所有需要人工复核的题目

生成一份质量检查报告。

导出为指定格式

请将整理后的题库导出为以下格式:

1. CSV表格格式(方便在Excel中编辑)
2. Word文档格式(方便打印和审阅)
3. 导入考试系统所需的格式(如Moodle XML格式)

分别保存到不同文件。

模块B:公式转换

将不同格式的数学公式相互转换:纯文本 ↔ LaTeX ↔ Markdown ↔ 图片OCR识别。

纯文本 → LaTeX 转换

请将以下纯文本公式转换为标准 LaTeX 格式:

1. x = (-b ± √(b² - 4ac)) / 2a
2. E = mc²
3. ∑(i=1 to n) xi = x1 + x2 + ... + xn
4. ∫(0 to ∞) e^(-x²) dx = √π / 2
5. P(A|B) = P(B|A) × P(A) / P(B)

要求:
- 使用标准 LaTeX 数学环境
- 上下标正确
- 分数使用 \frac
- 根号使用 \sqrt
- 求和/积分上下限使用 _ 和 ^

输出示例:

1. $$x = \frac{-b \pm \sqrt{b^2 - 4ac}}{2a}$$
2. $$E = mc^2$$
3. $$\sum_{i=1}^{n} x_i = x_1 + x_2 + \cdots + x_n$$
4. $$\int_{0}^{\infty} e^{-x^2} dx = \frac{\sqrt{\pi}}{2}$$
5. $$P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}$$

LaTeX → Markdown/纯文本 转换

请将以下 LaTeX 公式转换为 Markdown 兼容格式(使用Unicode字符):

1. \frac{\partial f}{\partial x} = \lim_{h \to 0} \frac{f(x+h) - f(x)}{h}
2. \nabla \times \vec{E} = -\frac{\partial \vec{B}}{\partial t}
3. \mathcal{L}\{f(t)\} = \int_{0}^{\infty} e^{-st} f(t) dt

公式图片识别

上传包含公式的图片(手写/印刷/截图均可),在 OpenClaw 对话中说:

请识别这张图片中的公式,并输出:
1. LaTeX 格式
2. 纯文本 Unicode 格式
3. 公式的文字描述

注意上下标、特殊符号的准确性。

批量公式转换

对于大量公式(如Word文档中的500道数学题):

我有一份包含大量数学公式的 Word 文档,公式都是 Word 格式(OMML)。
请帮我:

1. 分析可行的技术路线(python-docx提取 / Mathpix OCR / 其他)
2. 推荐最优方案
3. 生成批量转换脚本(OMML → LaTeX → Markdown)
4. 生成转换报告模板(成功数/失败数/需人工处理)

模块C:图片批量化处理

批量完成图片的格式转换、尺寸调整、压缩、加水印、重命名等操作。

批量格式转换 + 压缩

请帮我写一个脚本,完成以下任务:

1. 将 ./images/raw/ 目录下所有 .png 文件转为 .webp 格式
2. 统一尺寸为 800×600(保持比例,不足补白)
3. 质量设置为 80%
4. 输出到 ./images/output/ 目录
5. 处理完成后统计:文件数量、原始总大小、处理后总大小、压缩率

请生成完整的 shell 脚本并直接执行。

AI 会生成类似以下脚本并执行:

#!/bin/bash
INPUT_DIR="./images/raw"
OUTPUT_DIR="./images/output"
TOTAL_ORIGINAL=0
TOTAL_COMPRESSED=0
COUNT=0

mkdir -p "$OUTPUT_DIR"

for img in "$INPUT_DIR"/*.png; do
  [ -f "$img" ] || continue
  filename=$(basename "$img" .png)
  orig_size=$(stat -c%s "$img")
  TOTAL_ORIGINAL=$((TOTAL_ORIGINAL + orig_size))

  magick "$img" \
    -resize 800x600^ \
    -gravity center \
    -extent 800x600 \
    -quality 80 \
    "$OUTPUT_DIR/${filename}.webp"

  comp_size=$(stat -c%s "$OUTPUT_DIR/${filename}.webp")
  TOTAL_COMPRESSED=$((TOTAL_COMPRESSED + comp_size))
  COUNT=$((COUNT + 1))
  echo "✅ ${filename}.png → ${filename}.webp (${orig_size}B → ${comp_size}B)"
done

RATIO=$(echo "scale=1; $TOTAL_COMPRESSED * 100 / $TOTAL_ORIGINAL" | bc)
echo "处理完成:$COUNT 个文件,压缩率 ${RATIO}%"

批量添加水印 + 重命名

请帮我处理 ./images/covers/ 目录下的图片:

1. 每张图片调整为 900×383 像素
2. 在右下角添加水印图片 ./watermark/logo.png(透明度30%)
3. 按规则重命名:cover_20260602_001.webp, cover_20260602_002.webp...
4. 输出到 ./images/covers-output/ 目录

请生成脚本并执行。

批量生成缩略图 + HTML预览页

请帮我生成 ./images/products/ 目录下所有图片的缩略图:

1. 缩略图尺寸:200×200(正方形,居中裁剪)
2. 输出到 ./images/thumbnails/ 目录
3. 同时生成一个 HTML 预览页面,用网格展示所有缩略图
4. 点击缩略图可查看原图

常用图片处理命令速查

📌 前置条件:系统需安装 ImageMagick。检查命令:convert —version。如未安装,执行 yum install -y ImageMagick 或 apt install -y imagemagick。

模块D:数据分析辅助

生成 Python 数据分析脚本,完成数据清洗、统计分析、可视化图表生成,输出分析报告。

数据清洗

我有一份数据文件:./data/training-data.csv

请帮我写一个 Python 脚本进行数据清洗:

1. 检查并处理缺失值
2. 检查并处理异常值(如完课率>100%或<0%)
3. 统一日期格式
4. 去除重复行
5. 添加"转化率"列(实际到课/报名人数)
6. 输出清洗后的数据到 ./data/cleaned-data.csv
7. 生成数据质量报告

请生成完整可运行的脚本。

脚本生成后,让 OpenClaw 执行:

请运行这个脚本。

统计分析 + 可视化图表

请基于清洗后的数据 ./data/cleaned-data.csv,生成分析报告:

1. 描述性统计:
   - 各渠道的报名总数、到课率、平均满意度
   - 月度收入趋势
   - 完课率分布

2. 生成以下图表(保存为PNG到 ./data/charts/ 目录):
   a. 各渠道报名人数月度趋势(折线图,多渠道对比)
   b. 各渠道收入占比(饼图)
   c. 完课率 vs 满意度散点图
   d. 月度收入柱状图
   e. 各渠道转化率对比(横向柱状图)

图表要求:
- 中文标题和标签
- 图片尺寸 1200×800
- 清晰的配色

查看生成的图表

脚本执行完成后,查看生成的图表文件:

请列出 ./data/charts/ 目录下生成的所有图表文件,并简要描述每张图表的内容。

生成文字分析报告

请根据以上数据和图表,生成一份《培训业务数据分析报告》:

报告结构:
一、数据概览(数据范围、样本量、数据质量)
二、核心发现(3-5个最重要的发现)
三、渠道分析(各渠道表现对比)
四、趋势分析(月度变化趋势)
五、问题与建议
六、附录(关键数据表)

要求:
- 用数据说话,每个结论都有数据支撑
- 语言简洁,适合向管理层汇报
- 关键数字加粗标注
- 总字数控制在1500字以内

导出报告

请将分析报告导出为:
1. Word 文档(.docx)
2. PDF 文件
3. Markdown 文件

保存到 ./data/reports/ 目录。

📌 前置条件:系统需安装 Python 3 + pandas + matplotlib。安装命令:pip install pandas matplotlib。确保中文字体可用:yum install -y wqy-microhei-fonts。