当前位置：首页 > news >正文

Qianfan-OCR辅助数据库课程设计：实现纸质调查问卷的数字化与分析

news 2026/6/16 7:04:48

Qianfan-OCR辅助数据库课程设计：实现纸质调查问卷的数字化与分析

1. 项目背景与需求

每到学期末，计算机专业的学生们都会面临课程设计的挑战。传统的数据收集方式往往让学生们头疼不已——纸质问卷需要手动录入数据，不仅效率低下，还容易出错。去年我做课程设计时，就花了整整三天时间录入200份问卷，眼睛都快看花了。

这个项目正是为了解决这个痛点。我们将利用Qianfan-OCR技术，把纸质问卷一键转换成结构化数据，直接导入数据库进行分析。整个过程自动化程度高，既锻炼了技术能力，又解决了实际问题，特别适合作为数据库课程设计的选题。

2. 技术方案概述

2.1 整体流程设计

整个项目可以分为三个主要阶段：

图像处理阶段：用手机或扫描仪将纸质问卷转换为图片
OCR识别阶段：调用Qianfan-OCR接口批量识别问卷内容
数据分析阶段：将识别结果导入MySQL数据库，进行统计和可视化

2.2 为什么选择Qianfan-OCR

相比其他OCR方案，Qianfan-OCR有几个明显优势：

识别准确率高：对印刷体和手写体都有不错的表现
接口调用简单：几行代码就能完成识别功能
免费额度充足：学生项目完全够用
支持批量处理：可以一次性上传多张图片

3. 详细实现步骤

3.1 准备问卷图片

首先需要把纸质问卷数字化。这里有几个实用建议：

用手机拍摄时，尽量保持光线均匀，避免反光
如果条件允许，使用扫描仪效果更好
建议将每份问卷单独保存为一个图片文件
文件名可以按"问卷编号.jpg"的格式命名，方便后续处理

3.2 调用OCR接口

下面是使用Python调用Qianfan-OCR的核心代码：

from qianfan import ocr def recognize_questionnaire(image_path): # 初始化OCR客户端 ocr_client = ocr.OCR() # 调用通用文字识别接口 resp = ocr_client.general_basic(image=image_path) # 提取识别结果 result = resp['words_result'] text = '\n'.join([item['words'] for item in result]) return text

这段代码会返回识别出的文本内容。对于选择题问卷，通常每行对应一个问题的一个选项。

3.3 数据清洗与结构化

OCR识别出的原始数据需要进一步处理：

提取关键信息：使用正则表达式匹配问题编号和选项
处理识别错误：设置简单的校验规则，比如选项只能是A/B/C/D
转换为结构化数据：将每份问卷保存为JSON格式

import re import json def parse_questionnaire(text): # 示例：识别"1. A"这样的选择题格式 pattern = re.compile(r'(\d+)\.\s*([A-D])') matches = pattern.findall(text) # 转换为{问题编号:选项}的字典 result = {int(q):ans for q, ans in matches} return json.dumps(result)

3.4 导入数据库分析

处理好的数据可以导入MySQL进行分析。首先设计一个简单的表结构：

CREATE TABLE questionnaire_results ( id INT AUTO_INCREMENT PRIMARY KEY, student_id VARCHAR(20), q1 CHAR(1), q2 CHAR(1), -- 其他问题... submission_time TIMESTAMP DEFAULT CURRENT_TIMESTAMP );

然后使用Python批量导入数据：

import mysql.connector def import_to_database(data): conn = mysql.connector.connect( host="localhost", user="your_username", password="your_password", database="course_design" ) cursor = conn.cursor() sql = "INSERT INTO questionnaire_results (student_id, q1, q2) VALUES (%s, %s, %s)" cursor.executemany(sql, data) conn.commit()

4. 数据分析与可视化

数据入库后，就可以进行各种分析了。这里给出几个典型的SQL查询示例：

4.1 统计每题选项分布

SELECT q1 AS question, COUNT(CASE WHEN q1='A' THEN 1 END) AS option_A, COUNT(CASE WHEN q1='B' THEN 1 END) AS option_B, COUNT(CASE WHEN q1='C' THEN 1 END) AS option_C, COUNT(CASE WHEN q1='D' THEN 1 END) AS option_D, COUNT(*) AS total FROM questionnaire_results GROUP BY q1;

4.2 使用Python可视化

用matplotlib绘制柱状图展示统计结果：

import matplotlib.pyplot as plt def plot_question_stats(data): questions = data['question'] options = ['A', 'B', 'C', 'D'] fig, ax = plt.subplots() bar_width = 0.2 for i, opt in enumerate(options): ax.bar([x + i*bar_width for x in range(len(questions))], data[f'option_{opt}'], width=bar_width, label=f'Option {opt}') ax.set_xticks([x + 1.5*bar_width for x in range(len(questions))]) ax.set_xticklabels(questions) ax.legend() plt.show()