案例02:数据整理协助
📑 目录
模块A:题库整理与标准化
将来源不一、格式混乱的题库数据统一整理为标准格式,支持分类、去重、难度标注。
定义目标标准格式
先确定输出格式,再让AI按此标准整理。推荐JSON格式:
{
"question_id": "Q001",
"type": "single_choice",
"difficulty": 1,
"category": "AI基础",
"question": "什么是人工智能?",
"options": {
"A": "机器智能",
"B": "人类智慧",
"C": "自然力量",
"D": "以上都不是"
},
"answer": "A",
"explanation": "人工智能是指由机器展现出的智能行为..."
}
整理单份混乱题库
在 OpenClaw 对话窗口中,粘贴原始数据并输入以下指令:
我有一份混乱的题库数据,请帮我整理为标准格式。
【原始数据】
(粘贴你的题库数据)
【要求】
1. 识别每道题的题型(单选/判断/填空/多选)
2. 统一选项格式为大写字母A/B/C/D
3. 将难度统一为1-5的数字等级(★→3,简单→1,中等→3,困难→5)
4. 为每道题添加分类标签
5. 检查是否有重复题目,标记出来
6. 输出为标准JSON格式,保存到文件
请逐题分析,给出整理后的结果。
批量处理多份题库文件
有大量题库文件时,让AI生成处理脚本:
请帮我写一个 Python 脚本,批量处理题库文件:
需求:
1. 读取 ./raw-questions/ 目录下所有 .txt 和 .csv 文件
2. 自动识别题型
3. 标准化格式(参考上面的JSON标准)
4. 去重(基于题目内容相似度 > 90%)
5. 输出到 ./standard-questions/ 目录
6. 生成统计报告(各题型数量、难度分布、分类分布)
请生成完整可运行的脚本。
脚本生成后,让 OpenClaw 直接执行:
请运行这个脚本,并告诉我执行结果。
题库质量检查
整理完成后,让AI做质量审查:
请对整理后的题库做质量检查:
1. 检查每道题的选项数量是否合理(单选题应为4个选项)
2. 检查答案是否在选项范围内
3. 检查是否有题干不完整或明显的OCR错误
4. 检查难度分布是否合理(不应全部为同一难度)
5. 列出所有需要人工复核的题目
生成一份质量检查报告。
导出为指定格式
请将整理后的题库导出为以下格式:
1. CSV表格格式(方便在Excel中编辑)
2. Word文档格式(方便打印和审阅)
3. 导入考试系统所需的格式(如Moodle XML格式)
分别保存到不同文件。
模块B:公式转换
将不同格式的数学公式相互转换:纯文本 ↔ LaTeX ↔ Markdown ↔ 图片OCR识别。
纯文本 → LaTeX 转换
请将以下纯文本公式转换为标准 LaTeX 格式:
1. x = (-b ± √(b² - 4ac)) / 2a
2. E = mc²
3. ∑(i=1 to n) xi = x1 + x2 + ... + xn
4. ∫(0 to ∞) e^(-x²) dx = √π / 2
5. P(A|B) = P(B|A) × P(A) / P(B)
要求:
- 使用标准 LaTeX 数学环境
- 上下标正确
- 分数使用 \frac
- 根号使用 \sqrt
- 求和/积分上下限使用 _ 和 ^
输出示例:
1. $$x = \frac{-b \pm \sqrt{b^2 - 4ac}}{2a}$$
2. $$E = mc^2$$
3. $$\sum_{i=1}^{n} x_i = x_1 + x_2 + \cdots + x_n$$
4. $$\int_{0}^{\infty} e^{-x^2} dx = \frac{\sqrt{\pi}}{2}$$
5. $$P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}$$
LaTeX → Markdown/纯文本 转换
请将以下 LaTeX 公式转换为 Markdown 兼容格式(使用Unicode字符):
1. \frac{\partial f}{\partial x} = \lim_{h \to 0} \frac{f(x+h) - f(x)}{h}
2. \nabla \times \vec{E} = -\frac{\partial \vec{B}}{\partial t}
3. \mathcal{L}\{f(t)\} = \int_{0}^{\infty} e^{-st} f(t) dt
公式图片识别
上传包含公式的图片(手写/印刷/截图均可),在 OpenClaw 对话中说:
请识别这张图片中的公式,并输出:
1. LaTeX 格式
2. 纯文本 Unicode 格式
3. 公式的文字描述
注意上下标、特殊符号的准确性。
批量公式转换
对于大量公式(如Word文档中的500道数学题):
我有一份包含大量数学公式的 Word 文档,公式都是 Word 格式(OMML)。
请帮我:
1. 分析可行的技术路线(python-docx提取 / Mathpix OCR / 其他)
2. 推荐最优方案
3. 生成批量转换脚本(OMML → LaTeX → Markdown)
4. 生成转换报告模板(成功数/失败数/需人工处理)
模块C:图片批量化处理
批量完成图片的格式转换、尺寸调整、压缩、加水印、重命名等操作。
批量格式转换 + 压缩
请帮我写一个脚本,完成以下任务:
1. 将 ./images/raw/ 目录下所有 .png 文件转为 .webp 格式
2. 统一尺寸为 800×600(保持比例,不足补白)
3. 质量设置为 80%
4. 输出到 ./images/output/ 目录
5. 处理完成后统计:文件数量、原始总大小、处理后总大小、压缩率
请生成完整的 shell 脚本并直接执行。
AI 会生成类似以下脚本并执行:
#!/bin/bash
INPUT_DIR="./images/raw"
OUTPUT_DIR="./images/output"
TOTAL_ORIGINAL=0
TOTAL_COMPRESSED=0
COUNT=0
mkdir -p "$OUTPUT_DIR"
for img in "$INPUT_DIR"/*.png; do
[ -f "$img" ] || continue
filename=$(basename "$img" .png)
orig_size=$(stat -c%s "$img")
TOTAL_ORIGINAL=$((TOTAL_ORIGINAL + orig_size))
magick "$img" \
-resize 800x600^ \
-gravity center \
-extent 800x600 \
-quality 80 \
"$OUTPUT_DIR/${filename}.webp"
comp_size=$(stat -c%s "$OUTPUT_DIR/${filename}.webp")
TOTAL_COMPRESSED=$((TOTAL_COMPRESSED + comp_size))
COUNT=$((COUNT + 1))
echo "✅ ${filename}.png → ${filename}.webp (${orig_size}B → ${comp_size}B)"
done
RATIO=$(echo "scale=1; $TOTAL_COMPRESSED * 100 / $TOTAL_ORIGINAL" | bc)
echo "处理完成:$COUNT 个文件,压缩率 ${RATIO}%"
批量添加水印 + 重命名
请帮我处理 ./images/covers/ 目录下的图片:
1. 每张图片调整为 900×383 像素
2. 在右下角添加水印图片 ./watermark/logo.png(透明度30%)
3. 按规则重命名:cover_20260602_001.webp, cover_20260602_002.webp...
4. 输出到 ./images/covers-output/ 目录
请生成脚本并执行。
批量生成缩略图 + HTML预览页
请帮我生成 ./images/products/ 目录下所有图片的缩略图:
1. 缩略图尺寸:200×200(正方形,居中裁剪)
2. 输出到 ./images/thumbnails/ 目录
3. 同时生成一个 HTML 预览页面,用网格展示所有缩略图
4. 点击缩略图可查看原图
常用图片处理命令速查
📌 前置条件:系统需安装 ImageMagick。检查命令:convert —version。如未安装,执行 yum install -y ImageMagick 或 apt install -y imagemagick。
模块D:数据分析辅助
生成 Python 数据分析脚本,完成数据清洗、统计分析、可视化图表生成,输出分析报告。
数据清洗
我有一份数据文件:./data/training-data.csv
请帮我写一个 Python 脚本进行数据清洗:
1. 检查并处理缺失值
2. 检查并处理异常值(如完课率>100%或<0%)
3. 统一日期格式
4. 去除重复行
5. 添加"转化率"列(实际到课/报名人数)
6. 输出清洗后的数据到 ./data/cleaned-data.csv
7. 生成数据质量报告
请生成完整可运行的脚本。
脚本生成后,让 OpenClaw 执行:
请运行这个脚本。
统计分析 + 可视化图表
请基于清洗后的数据 ./data/cleaned-data.csv,生成分析报告:
1. 描述性统计:
- 各渠道的报名总数、到课率、平均满意度
- 月度收入趋势
- 完课率分布
2. 生成以下图表(保存为PNG到 ./data/charts/ 目录):
a. 各渠道报名人数月度趋势(折线图,多渠道对比)
b. 各渠道收入占比(饼图)
c. 完课率 vs 满意度散点图
d. 月度收入柱状图
e. 各渠道转化率对比(横向柱状图)
图表要求:
- 中文标题和标签
- 图片尺寸 1200×800
- 清晰的配色
查看生成的图表
脚本执行完成后,查看生成的图表文件:
请列出 ./data/charts/ 目录下生成的所有图表文件,并简要描述每张图表的内容。
生成文字分析报告
请根据以上数据和图表,生成一份《培训业务数据分析报告》:
报告结构:
一、数据概览(数据范围、样本量、数据质量)
二、核心发现(3-5个最重要的发现)
三、渠道分析(各渠道表现对比)
四、趋势分析(月度变化趋势)
五、问题与建议
六、附录(关键数据表)
要求:
- 用数据说话,每个结论都有数据支撑
- 语言简洁,适合向管理层汇报
- 关键数字加粗标注
- 总字数控制在1500字以内
导出报告
请将分析报告导出为:
1. Word 文档(.docx)
2. PDF 文件
3. Markdown 文件
保存到 ./data/reports/ 目录。
📌 前置条件:系统需安装 Python 3 + pandas + matplotlib。安装命令:pip install pandas matplotlib。确保中文字体可用:yum install -y wqy-microhei-fonts。