当前位置：首页 > news >正文

AI 辅助开发实战：计算机本科生毕业设计选题的智能推荐与工程化实现

news 2026/3/26 18:24:42

AI 辅助开发实战：计算机本科生毕业设计选题的智能推荐与工程化实现

大四开学，意味着两件事：秋招和毕设。相比简历，选题往往更让人头大——方向太多、时间太少，导师一句“要有创新点”瞬间把难度拉满。去年我也卡在这一步，于是干脆把“选题难”本身当成课题，用 AI 做了一套轻量级推荐系统。从 0 到 1 踩坑无数，整理成这份笔记，给后来人当垫脚石。

1. 选题到底难在哪

方向模糊
打开 GitHub 热榜，今天 AIGC，明天 LLM-Ops，看起来都能写，却不知道自己能啃下哪块骨头。
技术栈不匹配
实验室只给两台 4 核 8 G 的旧服务器，却想跑 Diffusion，显存直接劝退。
创新点=玄学
导师要求“工作量+创新”，网上抄一个肯定挂，纯靠自己拍脑袋又容易“过度创新”——做不出来。
试错成本高
定题→开题→中期，每一步都是沉没成本。中期发现数据集闭源，基本等于重开一局。

2. 技术方案对比：规则、向量、微调

方案	实现思路	优点	缺点	结论
纯规则	关键词+正则+IF/ELSE	零硬件、可解释	维度一多就爆炸，维护噩梦	适合 MVP，后期必重构
向量检索	Sentence-BERT 编码，Milvus 召回 Top-K	语义泛化好，实现快	需要清洗脏数据，冷启动慢	性价比最高，选它
微调小模型	用历年通过/驳回标签做二分类	精准度高	标注样本少，显存 8 G 起步	留给 2.0 版本

最终采用“向量检索+规则后过滤”的混合架构：语义保证召回，规则保证可行。

3. 系统架构与核心实现

3.1 总体流程

学生输入一句话描述兴趣，如“想用深度学习做医学影像”。
Sentence-BERT 编码成 384 维向量。
在 Milvus 里 ANN 搜索，召回 30 个最相近的往届课题。
规则引擎依次过滤：
- 硬件预算是否高于实验室上限
- 所需先修课程是否已修
- 数据集是否开源
返回前 5 个课题，并给出技术栈、参考论文、预估工作量。

3.2 课程知识图谱的构建

把培养方案解析成三元组：(课程, 前置, 后置)→ 生成有向图。
学生上传成绩单后，O(1) 查表即可得“已修课程集合”，用于可行性判断。
图谱用 Neo4j 存，查询模板如下：

MATCH (c:Course {name: $course}) WHERE ALL(pre IN [(c)-[:PRE]->(p) | p.name] WHERE pre IN $finished) RETURN c.name

3.3 语义匹配细节

模型：all-MiniLM-L6-v2，轻量，CPU 也能跑到 100 QPS。
课题侧预处理：
- 去掉停用词、库名版本号（如 pytorch1.12→pytorch）。
- 技术栈单独建字段，加权 1.5 倍，防止“文字游戏”课题蒙混过关。
向量库存 5 万条往届数据，占用磁盘 300 M，笔记本就能部署。

3.4 Flask 后端关键代码

以下片段演示“输入校验+异常兜底+流式返回”，可直接粘贴运行。

# app.py from flask import Flask, request, jsonify from sentence_transformers import SentenceTransformer from pymilvus import Collection from validator import validate_schema # 自定义 JSONSchema 校验 app = Flask(__name__) encoder = SentenceTransformer('all-MiniLM-L6-v2') collection = Collection("topic_db") @app.route("/recommend", methods=["POST"]) def recommend(): # 1. 输入校验 ok, msg = validate_schema(request.json, schema={ "type": "object", "properties": { "query": {"type": "string", "minLength": 5}, "budget": {"type": "number", "minimum": 0}, "courses": {"type": "array", "items": {"type": "string"}} }, "required": ["query"] }) if not ok: return jsonify({"code": 400, "msg": msg}), 400 try: # 2. 编码 vec = encoder.encode(request.json["query"]).tolist() # 3. 向量召回 collection.load() res = collection.search([vec], "embedding", param={"metric_type": "IP", "topk": 30}) ids = [x.id for x in res[0]] collection.release() # 4. 规则过滤（伪代码） filtered = rule_filter(ids, request.json) return jsonify({"code": 0, "data": filtered}) except Exception as e: app.logger.exception("Unexpected error") return jsonify({"code": 500, "msg": "内部错误，请联系管理员"}), 500

注意点