案例02：数据整理协助 —

📑 目录

模块A：题库整理与标准化
模块B：公式转换
模块C：图片批量化处理
模块D：数据分析辅助

模块A：题库整理与标准化

将来源不一、格式混乱的题库数据统一整理为标准格式，支持分类、去重、难度标注。

定义目标标准格式

先确定输出格式，再让AI按此标准整理。推荐JSON格式：

{
  "question_id": "Q001",
  "type": "single_choice",
  "difficulty": 1,
  "category": "AI基础",
  "question": "什么是人工智能？",
  "options": {
    "A": "机器智能",
    "B": "人类智慧",
    "C": "自然力量",
    "D": "以上都不是"
  },
  "answer": "A",
  "explanation": "人工智能是指由机器展现出的智能行为..."
}

整理单份混乱题库

在 OpenClaw 对话窗口中，粘贴原始数据并输入以下指令：

我有一份混乱的题库数据，请帮我整理为标准格式。

【原始数据】
（粘贴你的题库数据）

【要求】
1. 识别每道题的题型（单选/判断/填空/多选）
2. 统一选项格式为大写字母A/B/C/D
3. 将难度统一为1-5的数字等级（★→3，简单→1，中等→3，困难→5）
4. 为每道题添加分类标签
5. 检查是否有重复题目，标记出来
6. 输出为标准JSON格式，保存到文件

请逐题分析，给出整理后的结果。

批量处理多份题库文件

有大量题库文件时，让AI生成处理脚本：

请帮我写一个 Python 脚本，批量处理题库文件：

需求：
1. 读取 ./raw-questions/ 目录下所有 .txt 和 .csv 文件
2. 自动识别题型
3. 标准化格式（参考上面的JSON标准）
4. 去重（基于题目内容相似度 > 90%）
5. 输出到 ./standard-questions/ 目录
6. 生成统计报告（各题型数量、难度分布、分类分布）

请生成完整可运行的脚本。

脚本生成后，让 OpenClaw 直接执行：

请运行这个脚本，并告诉我执行结果。

题库质量检查

整理完成后，让AI做质量审查：

请对整理后的题库做质量检查：

1. 检查每道题的选项数量是否合理（单选题应为4个选项）
2. 检查答案是否在选项范围内
3. 检查是否有题干不完整或明显的OCR错误
4. 检查难度分布是否合理（不应全部为同一难度）
5. 列出所有需要人工复核的题目

生成一份质量检查报告。

导出为指定格式

请将整理后的题库导出为以下格式：

1. CSV表格格式（方便在Excel中编辑）
2. Word文档格式（方便打印和审阅）
3. 导入考试系统所需的格式（如Moodle XML格式）

分别保存到不同文件。

模块B：公式转换

将不同格式的数学公式相互转换：纯文本 ↔ LaTeX ↔ Markdown ↔ 图片OCR识别。

纯文本 → LaTeX 转换

请将以下纯文本公式转换为标准 LaTeX 格式：

1. x = (-b ± √(b² - 4ac)) / 2a
2. E = mc²
3. ∑(i=1 to n) xi = x1 + x2 + ... + xn
4. ∫(0 to ∞) e^(-x²) dx = √π / 2
5. P(A|B) = P(B|A) × P(A) / P(B)

要求：
- 使用标准 LaTeX 数学环境
- 上下标正确
- 分数使用 \frac
- 根号使用 \sqrt
- 求和/积分上下限使用 _ 和 ^

输出示例：

1. $$x = \frac{-b \pm \sqrt{b^2 - 4ac}}{2a}$$
2. $$E = mc^2$$
3. $$\sum_{i=1}^{n} x_i = x_1 + x_2 + \cdots + x_n$$
4. $$\int_{0}^{\infty} e^{-x^2} dx = \frac{\sqrt{\pi}}{2}$$
5. $$P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}$$

LaTeX → Markdown/纯文本转换

请将以下 LaTeX 公式转换为 Markdown 兼容格式（使用Unicode字符）：

1. \frac{\partial f}{\partial x} = \lim_{h \to 0} \frac{f(x+h) - f(x)}{h}
2. \nabla \times \vec{E} = -\frac{\partial \vec{B}}{\partial t}
3. \mathcal{L}\{f(t)\} = \int_{0}^{\infty} e^{-st} f(t) dt

公式图片识别

上传包含公式的图片（手写/印刷/截图均可），在 OpenClaw 对话中说：

请识别这张图片中的公式，并输出：
1. LaTeX 格式
2. 纯文本 Unicode 格式
3. 公式的文字描述

注意上下标、特殊符号的准确性。

批量公式转换

对于大量公式（如Word文档中的500道数学题）：

我有一份包含大量数学公式的 Word 文档，公式都是 Word 格式（OMML）。
请帮我：

1. 分析可行的技术路线（python-docx提取 / Mathpix OCR / 其他）
2. 推荐最优方案
3. 生成批量转换脚本（OMML → LaTeX → Markdown）
4. 生成转换报告模板（成功数/失败数/需人工处理）

模块C：图片批量化处理

批量完成图片的格式转换、尺寸调整、压缩、加水印、重命名等操作。

批量格式转换 + 压缩

请帮我写一个脚本，完成以下任务：

1. 将 ./images/raw/ 目录下所有 .png 文件转为 .webp 格式
2. 统一尺寸为 800×600（保持比例，不足补白）
3. 质量设置为 80%
4. 输出到 ./images/output/ 目录
5. 处理完成后统计：文件数量、原始总大小、处理后总大小、压缩率

请生成完整的 shell 脚本并直接执行。

AI 会生成类似以下脚本并执行：

#!/bin/bash
INPUT_DIR="./images/raw"
OUTPUT_DIR="./images/output"
TOTAL_ORIGINAL=0
TOTAL_COMPRESSED=0
COUNT=0

mkdir -p "$OUTPUT_DIR"

for img in "$INPUT_DIR"/*.png; do
  [ -f "$img" ] || continue
  filename=$(basename "$img" .png)
  orig_size=$(stat -c%s "$img")
  TOTAL_ORIGINAL=$((TOTAL_ORIGINAL + orig_size))

  magick "$img" \
    -resize 800x600^ \
    -gravity center \
    -extent 800x600 \
    -quality 80 \
    "$OUTPUT_DIR/${filename}.webp"

  comp_size=$(stat -c%s "$OUTPUT_DIR/${filename}.webp")
  TOTAL_COMPRESSED=$((TOTAL_COMPRESSED + comp_size))
  COUNT=$((COUNT + 1))
  echo "✅ ${filename}.png → ${filename}.webp (${orig_size}B → ${comp_size}B)"
done

RATIO=$(echo "scale=1; $TOTAL_COMPRESSED * 100 / $TOTAL_ORIGINAL" | bc)
echo "处理完成：$COUNT 个文件，压缩率 ${RATIO}%"

批量添加水印 + 重命名

请帮我处理 ./images/covers/ 目录下的图片：

1. 每张图片调整为 900×383 像素
2. 在右下角添加水印图片 ./watermark/logo.png（透明度30%）
3. 按规则重命名：cover_20260602_001.webp, cover_20260602_002.webp...
4. 输出到 ./images/covers-output/ 目录

请生成脚本并执行。

批量生成缩略图 + HTML预览页

请帮我生成 ./images/products/ 目录下所有图片的缩略图：

1. 缩略图尺寸：200×200（正方形，居中裁剪）
2. 输出到 ./images/thumbnails/ 目录
3. 同时生成一个 HTML 预览页面，用网格展示所有缩略图
4. 点击缩略图可查看原图

常用图片处理命令速查

📌 前置条件：系统需安装 ImageMagick。检查命令：convert —version。如未安装，执行 yum install -y ImageMagick 或 apt install -y imagemagick。

模块D：数据分析辅助

生成 Python 数据分析脚本，完成数据清洗、统计分析、可视化图表生成，输出分析报告。

数据清洗

我有一份数据文件：./data/training-data.csv

请帮我写一个 Python 脚本进行数据清洗：

1. 检查并处理缺失值
2. 检查并处理异常值（如完课率>100%或<0%）
3. 统一日期格式
4. 去除重复行
5. 添加"转化率"列（实际到课/报名人数）
6. 输出清洗后的数据到 ./data/cleaned-data.csv
7. 生成数据质量报告

请生成完整可运行的脚本。

脚本生成后，让 OpenClaw 执行：

请运行这个脚本。

统计分析 + 可视化图表

请基于清洗后的数据 ./data/cleaned-data.csv，生成分析报告：

1. 描述性统计：
   - 各渠道的报名总数、到课率、平均满意度
   - 月度收入趋势
   - 完课率分布

2. 生成以下图表（保存为PNG到 ./data/charts/ 目录）：
   a. 各渠道报名人数月度趋势（折线图，多渠道对比）
   b. 各渠道收入占比（饼图）
   c. 完课率 vs 满意度散点图
   d. 月度收入柱状图
   e. 各渠道转化率对比（横向柱状图）

图表要求：
- 中文标题和标签
- 图片尺寸 1200×800
- 清晰的配色

查看生成的图表

脚本执行完成后，查看生成的图表文件：

请列出 ./data/charts/ 目录下生成的所有图表文件，并简要描述每张图表的内容。

生成文字分析报告

请根据以上数据和图表，生成一份《培训业务数据分析报告》：

报告结构：
一、数据概览（数据范围、样本量、数据质量）
二、核心发现（3-5个最重要的发现）
三、渠道分析（各渠道表现对比）
四、趋势分析（月度变化趋势）
五、问题与建议
六、附录（关键数据表）

要求：
- 用数据说话，每个结论都有数据支撑
- 语言简洁，适合向管理层汇报
- 关键数字加粗标注
- 总字数控制在1500字以内

导出报告

请将分析报告导出为：
1. Word 文档（.docx）
2. PDF 文件
3. Markdown 文件

保存到 ./data/reports/ 目录。

📌 前置条件：系统需安装 Python 3 + pandas + matplotlib。安装命令：pip install pandas matplotlib。确保中文字体可用：yum install -y wqy-microhei-fonts。