资源描述
扫码关注,GIAC,公众号,人工智能在,K12,教育行业的落地,苗广艺,学霸君,2018.3.14,个人简介,毕业于中科院计算机专业,模式识别方向,先后就职于央视网、搜狐、,YY,、奇虎,360,2014,年加入学霸君,目前担任技术,VP,目录,1,背景介绍,智慧题库,自动批改,自适应学习,总结,2,3,4,5,学霸君是一家面向,K12,的智能化教育公司,碎片化学习场景,课外补习场景,课内学习场景,学习陪伴工具,滴滴打老师,2C,:线上,1,对,1,授课,2B,:智慧教育平台,2014.1,2015.4,2016.2,500,万,美金,5000,万,美金,1,亿,美金,A,轮,B,轮,C,轮,人工智能的几个层次,基础层,云计算、芯片、,TF,等框架,中间层,语音识别、人脸识别、图像识别,应用层,AI+,行业、行业,+AI,学霸君定位,80,万套,试卷,8,,,000,万道,题目,100,亿次,搜索,仅,有数量是,远远,不够的,,,我们,需要,智慧,题库,学霸君,积累了海量题库,自动识别题目属性(,如题号、分值、题目,类型,,选择题选项,填空题空格位置),题目格式结构化,若函,数,f(x)=frac3a-1sqrt1-ax,在区间,0,1,上单调递增,识别算法,渲,染算法,数学,公式,LaTeX,化,低成本人力,流水化生产题目,试卷,书本,Word,、,PDF,图片,高效数字工厂,结构化题目,题库,流水化加工,自动化算法,系统,训练算法,入库,反馈,通过算法提高生产效率,书本,结构化题目,题库,目录制作,(版面分析、,OCR,),切割扫描,框题 挂靠,目录,(版面分析、,OCR,),去,重,(搜索,,NLP,),结构化,录入,(版面分析、,OCR,、公式识别),双重,质检,(,NLP,),难点:短文本、多层次、需要语义,/,公式层面信息,题目知识点分类,结构化知识点,通过算法提高生产效率,单题,结构化,知识点,题库,老师团队:兼职,+,全职,众包体系,众包标注知识点,自动化算法,系统,特征提取,获取题目结构化信息,对不同学科进行专门分词处理,提取公式,提取公式特征,知识点分类算法,神经网络分类,CNN+RNN,多,模型,Ensenble,结果过滤,筛选出预测置信度较低的题目,交给人工确认,后处理,预测,1-4,级知识点结构,用上层知识点约束下层,使用场景,手写笔记同传技术,保留纸笔写字的传统习惯,学校里常规使用,自动批改,学校现状,未来情况,老师每天至少花费,2,个小时,批改作业,学生做题数据全量电子化,由系统完成作业批改,老师随时查看作业报告,自动批改算法架构,批改结果,学生做题的,笔记数据,题目答案获取,版面分析,手写识别,知识,点分析,符号语言处理,答案的变式处理,搜索匹配,题目与学生笔迹,学生手写笔迹:,题干:,学生笔迹版面分析,文本行提取,公式定位,端到端识别(,CNN,LSTM,CTC,),卷积层,解码层,多层,RNN,f(x),是减函数,基于,2D,空间结构识别,算法主要步骤:,1.,字符切分,2.,字符识别,3.,公式结构解析,4.,后处理,基于搜索匹配的批改,参考答案:,数学符号,语言处理,批改结果:,匹配,老师收到作业报告,26,缩小学习闭环时间,解答题如何实现自动批改?,M,个关键步骤:,N,行手写,数据:,关键步骤,1,关键步骤,2,最终得分,=,答案分数,+,步骤,1,分数,+,步骤,2,分数,解,答题批改引来的问题,几个,问题:,关键步骤如何提取?,多种解法如何处理?,题干,解题步骤,自动解题算法,多种解法,关键步骤,精细知识点,答案,29,高考机器人,Demo,解题算法架构,题目文本数据,解题步骤,NLP,形式化描述语言,若干知识元,推导过程,生成语言,中间状态,结束,是否获得答案,是,否,状态切换,IRT,理论:,Item Response Theory,原理,:,通过建模学生做题数据,量化学生能力特征和题目特征,学生能力值,题目,难度,题目,区分,度,题目,猜测度,预测学生答对,概率,个性化学习,广泛应用于心理和教育测量领域,应用,:学生能力评估,学生,ID,题目,ID,学科,ID,知识点,答题情况,1000,2000,数学,集合关系,1000,2001,数学,三角函数,1001,2002,物理,重力的性质,1001,2003,化学,碳元素特点,答题数据,数据分析,学生能力数据,学生,ID,学科,知识点,能力值,1000,数学,集合关系,1,.12,1001,物理,重力的性质,-0.23,1001,化学,碳元素特点,0,.87,题目属性数据,题目,ID,难度,区分度,答,对,概率,2000,0.67,0.4,23%,2001,0.54,0.56,5%,2002,-1.2,1.2,4.2%,2003,-0.12,0.76,26%,Deep Knowledge Tracing(DKT),输出层,(预测学生的答题正确的概率),输入层,(学生的答题序列),隐藏层,(学生的能力特征),核心:,以,RNN,为基本架构,以学生的能力作为隐藏的特征,预测学生答对概率,或者结合,IRT,模型,将训练得到的能力特征作为输入,利用,RNN,训练学生能力模型,传统,IRT,理论,深度学习,RNN,知识图谱,自适应学习模型,自适应学习框架,时间,时间,时间,千人千面,带来的困扰,算法不通用,各种场景都需要定制,开发量很大,业务变动,不可复用,基本要重新开发,对个人依赖度较大,只有实际开发者最懂,别人接手时间很长,对人才复合要求较高,懂,算法,懂业务,懂教研,有较好的系统架构和编码能力,THANKS,
展开阅读全文