【中小学AI人工智能教育】文本分类任务和情感分析
Ai创想实验室是专门为中小学AI教育开发的教学平台,包含了值计算、图像分类、音频分类、文本分类、数值回归、图像回归、图像分类+回归、平衡杆、手写数字生成、文本生成等中小学人工智能学习类项目。无需编程基础、无需添加硬件、无需购买算力、无隐私担忧、无需师资培训即可进行教学实践。
文本分类任务是一项有趣的任务,模型能够学会对自然语言描述的事物进行分类。例如学会诗歌体裁分类、产品评价归类、好评差评、心理活动分析等,通常这类任务需要较大的模型和大量的文本来进行训练,所以在进行该实验时更应充分考虑样本质量和数量带来的影响;并且,中文和英文样本训练难度有显著差异。
从技术的角度来说,文本分类任务通常需要使用Embedding层,而文本生成任务中即使简单的模型也需要使用Embedding层和LSTM层。为使这样的模型能够在浏览器内能够正常训练开发过程中进行了若干创造性劳动、使用了诸多技术方法——在Ai创想实验室内你可以正常从零训练模型,且训练任意多轮次也不会出现诸如WebGL崩溃等问题。
一、模型搭建
在这里我们依然以低配硬件(使用核显,4G内存)为标准构建模型,该模型可以在几分钟到十几分钟内被训练达到教学要求。其中包括使用一个5000大小的词汇表,也就是说,我们可以使用真实数据,而无需过度清洗:
输出使用了2个分类:好评和差评。
二、数据构建
一般来说,我们保持默认设置即可:
需要注意的是,对于长文本样本训练起来更容易,而对于短文本样本需要有足够的数量才能让模型学会某些否定词。例如,我们使用外卖评价,想让模型学会“好吃”、“好难吃”之间的区别,就要有多个类似的短评价和使用较多轮次的训练。
三、分词设置和训练
分词设置在文本类模型中非常重要,我们使用一个通用的分词器来降低数据清洗和训练数据准备的难度:
该分词器可以用于中英文混合样本,多数情况下保持默认即可,修改时应仔细阅读说明。
点击“开始训练”即可进行训练:
从训练日志可以看到,使用4000个样本来训练前述模型时,在核显上仅需几十秒即可训练一轮,几轮之后就可以看到显著效果。如果对训练效果不满意,可以点击“继续训练”来继续训练模型。
在开始训练前,训练器会验证您的硬件承受能力上限,该上限被确定的较为激进。如果在训练过程中浏览器等窗口略感卡顿,可以打开任务管理器查看GPU占用情况,若过高或卡顿过强,可以尝试减小批次大小。如果你使用独显且性能强劲,可以尝试把批次设置更大一些,这样训练时长会有所减少。
四、预测
导出已训练模型,然后将其导入到预测器,输入文本即可预测:
使用几千的数据进行训练不会得到非常准确的模型。如果你希望模型达到更高的准确率,那么首先要准备更多的训练样本并尝试更多的轮次。当然,你也可以更具自身硬件的能力,尝试增大模型。
Ai创想实验室已申请多项知识产权保护,但文本分类训练器涉及大量核心技术机密,且暂无公开计划。所以,在演示版本中训练器的核心算法已被删除。但在演示版中你仍可以体验整个过程,包括使用预训练的模型进行预测。
在AI创想实验室中,我们无需编程基础,不用学习框架,不用配置环境,无需购买费用高昂的显卡,更不用为云端算力付费,使用当前已有的各种硬件:仅有核显的个人、办公、机房电脑,希沃白板等都能达到理想的教学效果。操作简单但AI核心知识样样俱全,无需师资培训就可以进行教学且能取得理想的教学效果。如果加入试点或合作方那么只需要一台局域网服务器(无需显卡、服务器不用供算力)即可一次投入永久使用全部项目和功能,通过后台管理一分钟即可创建一个本地化、校本化的项目实例。
