计算技术与自动化ComputingTechnologyandAutomationVol.38,No.2Jun.2019
文章编号:1003—6199(2019)02—0130—05DOI:10.16339/j.cnki.jsjsyzdh.201902024
基于学生一卡通消费大数据的贫困生挖掘分析
李爱凤覮,梁碧允,李晓丹
广东广州510006)(广州大学网络与现代教育技术中心,
摘要:贫困生的资助工作是当前高校学生管理的重要工作之一。随着大数据在各个领域广泛而深入的应用,善用大数据技术挖掘并认定贫困生,真正实现精准扶贫,是大数据在教育领域深度应用的体现。构建了学生主题共享数据仓库,设计了学生主题ETL(ExtractionTransformationLoading)工作流功能架构图,选取学生主题应用场景之一贫困生精准资助进行数据分析。获得了学生就餐习惯、消费行为、在校情况及消费指数和贫困生筛选等。为学校未来大面积、规模化和动态实施\"校园大数据,精准扶贫\"决策支持及学情分析打下了良好的基础。
关键词:大数据分析;一卡通;贫困生认定;精准资助中图分类号:TP319
文献标识码:A
AnalysisandMiningofPoorStudentsBased
BigDataofonCollegeStudentCardConsumption
(NetworkandModernEducationTechnologyCenter,GuangzhouUniversity,Guangzhou,Guangdong510006,China)Abstract:Thesubsidizationofpoorstudentsisoneofthemostimportantstudentmanagementtasksincollegesanduniversities.
LIAi-feng覮,LIANGBi-yun,LIXiao-dan
Withwideanddeepapplicationsofbigdatainallkindsoffields,usingbigdatatechniquerationallyforminingandidentifyingpoorstudent-orientedsharedatawarehousemodel,designsExtractionTransformationLoadingworkflowarchitecturediagramandanalyzeoneofapplicationscenariossuchasaccuratesubsidizepoorstudents.Basedontheanalysis,weacquireimportantresultsconcerningsubsidization”,accuraterecognitionofpoorstudentsandstudentsituationanalysisinthefuture.
studentsandrealizingaccuratesubsidizationrepresentsin-depthapplicationofbigdataineducationalfield.Thispaperconstructsdininghabits,consumingbehaviors,situationsinschoolandconsumptionindicatorsofthestudents,andthenaccuratelyselectpoorstudents.Theminedresultscancreateasolidfoundationforlarge-scaledynamicimplementationof“campusbigdataandtargeted
Keywords:bigdataanalysis;campuscard;poorstudentsidentification;accuratesubsidization
随着高等教育规模的迅速扩大,各个高校的贫困生数量也在不断攀升。教育部的一项调查显示,目前高校中存在经济困难的学生占在校学生的15%-30%[1]。因此,越来越多的研究关注如何解决贫困生问题[2]。有的研究关注能否为贫困生争取有益的条件,例如国家层面的助学贷款;学校层面的
收稿日期:2018—09—04
规划课题(670230117)基金项目:广州市教育科学2017年“十三五”
校级奖学金和提供助学岗位等[3];有的研究则借助
信息技术的手段,建立贫困生信息管理系统,实现
计算和分析[4]。这些研究虽然提信息的登记、查询、
高了贫困生管理工作的效率,但如何通过分析这些数据得到一些知识或规律,从而帮助有关贫困生工作人员完善目前的贫困生资助体系,制定合理科学
(1977—)作者简介:李爱凤,女,江西新余人,硕士,高级实验师,研究方向:教育大数据。覮通讯联系人,E-mail:liaf0210@gzhu.edu.cn
第38卷第2期李爱凤等:基于学生一卡通消费大数据的贫困生挖掘分析
131
的资助政策是一项有重要意义的工作[5]。在这种驱
动下,现在越来越多的研究把数据挖掘方法引入到
例如,高校贫困生资格认证分析中。采用改进的K-Means聚类算法对高校学生的校园卡消费数据进
行分析,基于聚类结果计算每个学生的贫困程度,
还有研究采用支持用来辅助高校资助决策工作[6];
(SupportVectorMachine,向量机SVM)对学生校园一卡通的消费数据进行分析,将学生按贫困与非贫困分类,在高校资助决策工作中给予一定辅助[7]。这些方法大多是在一个数据集上运用数据挖掘算法得出规则,挖掘的结果在一定程度上可以为贫困生认定工作提供辅助和决策。但没有系统的搭建全方位、统一的数据主题,以提升数据质量和共享程度,运算出更精确的结果进而更好地支持数据挖掘和决策。
2015年召开的党的十八届五中全会明确提出
[8]《2018年度国家自。在了实施“国家大数据战略”
[9]然科学基金项目指南》专门开辟教育研究通道研究教育的难题,旨在推动以自然科学范式和手段,特别是让传统教育科学与信息科学、神经科学、认知科学相交叉,研究教育的基本理论和基础问题,支撑新时代的教育。电子科技大学大数据研究中心-教育大数据研究所在贫困生精准资助、图书推荐、成绩预测领域做了很多开创前沿性的工作[10]。文章正是在这种“数据驱动学校,分析变革教育”的大数据时代背景下[11],结合我校正在构建的数据资产管理平台,对主题数据进行全面梳理,搭建统一的学生数据主题,以提高数据分析结果。具体做法是采集一卡通系统736名学生近三个月的255822条就餐数据和与学生主题相关的其他六大应用系
统中的信息经过清洗并建模。通过对这些数据规模化的分析后运算出结果以支持贫困生决策。
2学生主题数据建模
早在2010年我校就引入了数据交换平台和共享库,在一定程度上解决了业务系统之间数据互联互通问题。但在实际建设过程中,它只是充当了数据交换中转站的角色。为了满足学校对数据挖掘和决策支持需求,需要构建校级数据仓库(DataWare原house)。通过数据仓库的建立,职能部门可对现有系统的数据进行有效的清洗和整合并加以重组,进
如以学生主题为而在此基础上做应用场景的分析。
例,我们把与学生主题有关的业务系统接入数据中心。如图1所示,通过数据整合及分层设计构建了学生主题域的数据仓库。其中操作型数据存储层(OperationalDataStore)解决源系统快速接入的问
数据仓题,避免从源系统做频繁和重复数据抽取;
库层(EnterpriseDataWarehouse)按照业务驱动,面向主题整合,保留明细和历史数据并且模型相对稳定,但是会随着源系统和数据业务标准的变化,ETL(ExtractionTransformationLoading)会随之变
构建好化。应用数据层是面向应用的个性化定制。
了一个主题模型框架后,需要在适当的时候逐步实现物理化。贫困生挖掘分析的ETL工作流功能结构如图2所示。图中选取了与学生信息相关的六大核心业务系统,经过ETL处理后以学号为主关键
以保证基于学字把学生的信息整合成一张表信息。
生的消费数据模型进行贫困生挖掘分析的有效性。
数据整合及数据中心分层结构示意图
数据中心
原始数据层ODS_YX_迎新数据表ODS_JW_教务数据表ODS_XG_学工数据表ODS_JY_就业系统ODS_IDCARD_一卡通系统ODS_LIBRARY_图书借阅系统共享维表(标准)学生主题-事实表数据仓库层
应用数据层
迎新系统教务系统学工系统就业系统一卡通系统
学生应用场景之贫困生精准资助
图书借阅系统
图1学生主题数据仓库
132
计算技术与自动化2019年06月
ETL工作流功能结构分级示意图
ROOT(根目录)
ODS_XG_STUDENTINFO
ODS_XG_COMMUNICATIONODS_XG_MAJORODS_XG_OVERALLODS_XG_ELITEODS_XG_RCPYBODS_XG_CGCJB
ODS_XG_AWARDHONORODS_CAMPUSCARD_YJDAYODS_CAMPUSCARD_YJAM_OUNTODS_CAMPUSCARD_YJCOUNTDW_STUDENTINFO_FACTDW_POORSTUDENT_FACADS_STUDENT_ALL_INFORMATIONODS(操作型)
XG(学工)JW(教务)YX(迎新)CAMPUSCARD
(一卡通)LIBRARY(图书借阅)STUDENT(学生主题)ALL_INFORMATION(学生一张表)
JY(就业)
DW(数据仓库)
ADS(应用数据集市)DW_STUDENTCONSUME_FACT图2ETL目录示意图
3学生消费数据建模
经过学生主题数据仓库建模后,采集了学生一张表信息集,我们把涉及到学生消费数据建模所需要的数据集输入大数据分析专家软件Datist,并对敏感信息如身份证号脱敏处理以及对学生基本信息和就餐交易数据进行了从身份证中解析性别和籍贯信息和对交易记录中的日期进行数据预处理后,再添加就餐饭点信息和就餐星期信息以及设置条件“设在饭堂吃饭”得到学生消费数据模型如图3所示。模型分析了长期不在饭堂吃饭、大额消费(即单餐消费超30元)和贫困生单月消费总额三种情况。
(Context)Datist是服务于大数据时代场景式数
据整合与融合的功能强大的软件产品。该软件根据用户场景需求组织数据与编制业务流程,通过可视
组织、整合、提纯化的节点组合来完成数据的获取、
及有形化表达。图3是根据学生一卡通消费数据设计的业务流程。
图中有输入节点即数据源:学生基本信息表和学生消费交易数据表等。输入节点后进入数据处理
过滤节点、大额消阶段,通过数据处理如汇总节点、
费数据即单餐消费超30元等节点处理后再经过各种输出节点输出结果。如有贫困学生单月消费总额、长期不在食堂吃饭等异常结果信息。部分处理的样例数据如表1所示。
学生基本信…证件号身份证解析去除身份证号学生信息
数据源发生时间过滤#1就餐日期就餐时间饭点发生星期几交易信息
长期不在饭堂吃饭
规范到饭点
汇总
过滤
设在饭堂吃饭
单餐消费超30元
文件收集器
贫困学生单月消费总额
浏览报告
图3学生数据消费模型
第38卷第2期李爱凤等:基于学生一卡通消费大数据的贫困生挖掘分析
133
表1消费交易发生时间与就餐时间、饭点、发生星期几的分析结果
学号16074000011607400001
金额2.500.5发生时间2016-09-0819:39:462016-09-0907:50:45
就餐日期2016/9/82016/9/9
就餐时间19:397:507:33
饭点晚餐早餐
发生星期几星期六星期日
1607400001
1607400001
2.00
16074000015.20
2016-09-1007:33:25
1.002016-09-1011:14:48
2016/9/102016/9/102016/9/102016-09-1011:36:0911:14
早餐
11:36午餐
星期一星期一星期一午餐4学生就餐消费信息分析
数据模型确立后,通过软件运算,对736名学
生2016年9月9日-12月28日(共111天)的就餐数据进行分析,从中获取到学生的就餐习惯信息。
之间的占大部分,50~100元次之,其他100~200元之间的建议需要多关注。
通过对736名学生2016年9月-12月份,3个月份校园消费记录255822条数据进行综合分析,
每餐消费额、消费均值等根据就餐频次、消费额度、给每名学生计算消费指数。消费指数具有相对意义,值越小消费水平越低。通过消费指数进行排序
可以很快了解到学生的相关信息,由于篇幅限制,表3仅展示前10名学生信息。表中贫困生贫困程度的认定就是根据消费指数为依据的,如可以设置一个阈值,小于等于该阈值的认定为特别贫困,大于该阈值的认定为一般贫困。4.1.3消费指数分析
4.1学生消费异常分析
以下分析是针对广州大学2016年9月-12月其中736名学生的三个月中就餐数据异常情况进行分析,由于数据量还没有足够大,异常分析结果可能存在一些偏差。
4.1.1连续7日无就餐消费记录学生分析
三个月份有连续7天没有消费记录学生共计435人,由于篇幅有限,无法列出所有学生详细信息,表2只列出前20名学生信息,对于这一部分长期不在食堂吃饭的学生建议需要关注。4.1.2大额就餐消费记录
对于单笔消费超过30元的消费记录可能是校园内部其他消费,如超市消费,网费缴费或者医院缴费等,这些记录如果判别为医院消费,那将要对这些学生进行重点关注。分析的结果展示30~50元
5结论
分析的数据集只采用了2016年9月-12月份
三个月的736名学生255822条就餐消费数据进行分析,获得了学生就餐习惯及消费指数。就餐消费数据分析可以达到两项目的,一是对学生生活现状进行分析;二是可系统地实现校园大数据,精准资
表2连续7天无消费记录前20名学生名单
天数85826462575351484747464645454241393837
未在学校就餐时间段
2016-09-25-2016-11-16.2016-11-20-2016-12-23部门全称
姓名
地区
区县
性别男男男男男男男男男男女男男男男男男男男
机械与电气工程学院凌健豪衡阳市珠晖区
2016-12-09-2016-12-28.2016-09-29-2016-10-07.2016-10-15-2016-10-28.2016-10-28-2016-12-09机械与电气工程学院张加兄广州市番禹区2016-12-14-2016-12-28.2016-09-16-2016-10-11.2016-10-29-2016-11-07.2016-11-12-2016-11-28机械与电气工程学院钟永健广州市白云区2016-12-10-2016-12-28.2016-09-29-2016-10-06.2016-10-21-2016-11-08.2016-11-10-2016-11-29机械与电气工程学院庄铎铉揭阳市揭西县2016-12-15-2016-12-28.2016-09-11-2016-10-15.2016-10-18-2016-10-282016-12-12-2016-12-28.2016-09-29-2016-10-07.2016-10-09-2016-11-052016-12-05-2016-12-28.2016-09-13-2016-09-27.2016-09-28-2016-10-082016-12-05-2016-12-28.2016-09-12-2016-09-29.2016-09-30-2016-10-092016-12-10-2016-12-28.2016-09-28-2016-10-08.2016-11-22-2016-12-102016-12-10-2016-12-28.2016-09-13-2016-09-27.2016-09-27-2016-10-112016-12-19-2012-16-28.2016-09-21-2016-09-29.2016-09-29-2016-10-272016-09-13-2016-10-252016-12-10-2016-12-28.2016-09-29-2016-10-08.2016-10-15-2016-10-292016-12-12-2016-12-28.2016-09-12-2016-09-26.2016-09-29-2016-10-082016-12-12-2016-12-28.2016-09-10-2016-09-24.2016-10-24-2016-10-31机械与电气工程学院叶彦斌河源市龙川县机械与电气工程学院李明桂茂名市高州市机械与电气工程学院何越安庆市太湖县机械与电气工程学院范垂恒汕头市潮阳市机械与电气工程学院余伊琦广州市天河区机械与电气工程学院谭嘉荣广州市从化市机械与电气工程学院陈露梅州市五华县机械与电气工程学院莫思豪广州市荔湾区机械与电气工程学院林卓民汕头市潮阳市机械与电气工程学院王立飘茂名市电白县机械与电气工程学院向集麟巫溪县巫溪县
2016-12-10-2016-12-28.2016-09-30-2016-10-07.2016-10-14-2016-10-31.2016-10-31-2016-11-11机械与电气工程学院罗海豪江门市开平市2016-12-14-2016-12-28.2016-09-29-2016-10-07.2016-10-18-2016-10-28.2016-10-28-2016-11-13机械与电气工程学院刘学云梅州市丰顺县
2016-12-16-2016-12-28.2016-09-27-2016-10-08.2016-10-26-2016-11-05.2016-10-04-2016-12-16机械与电气工程学院郑逸先广州市白云区
2016-09-29-2016-10-07.2016-11-02-2016-11-12.2016-11-15-2016-11-22.2016-12-12-2016-12-25机械与电气工程学院谢海涛河源市龙川县
134
计算技术与自动化2019年06月
表3贫困生名单排序表前10名
学号16074000311607400040160740006316074000711607400099160740005316074000981607400066160740009616074000881607400023就餐天数6052555359588377717982就餐数17111412311814114412513811315799
就餐费368.50290.90467.70378.20387.70485.70462.9366.7415.9582.8314
天平均消费6.145.595.877.146.578.375.584.765.863.977.11早餐平均1.502.021.591.632.752.352.962.572.292.453.54午餐平均3.603.154.274.233.833.713.783.383.634.463.76晚餐平均1.333.262.893.213.334.553.353.253.612.173.92早餐数午餐数晚餐数572243405352736260706858413646534932254514495636353712403637312539消费指数排序-277.4-168.5-165.6-156.9-149.1-132.598-103.251-98.023-75.490-72.763-146.8
贫困认定程度特别贫困特别贫困特别贫困特别贫困特别贫困特别贫困特别贫困一般贫困一般贫困一般贫困特别贫困
“潜藏”的非贫困生;助,即是在贫困生中分析发现
在非贫困生中发现那些确实很贫穷,但又不愿意说的学生。
从以上分析结果来看,通过“一卡通”交易数据来对贫困生的贫困程度进行排名有比较好的区分度,可以作为发放贫困生资助的一个依据。
为了准确的对学生进行画像,下面对今后分析提几点建议:
1.本次大数据分析,只是学校做一个掀起实验
只用了736多名学生3个多月的性研究。“一卡通”的消费数据是远远不够的,未来用全校所有学生一
个学年的数据进行综合分析,这样分析出来的结果更准确。
2.通过获取全校所有学生的“一卡通”交易数
况,把分析后得到的结果及时通过邮件或微信通知相关管理部门的不同岗位的相关人员,比如主管校
各学院分管学长、学工部部长、资助中心管理人员、生的书记、主管班级学生的辅导员等。特别是对前一年资助的贫困生追踪动态分析,对原来不是贫困生,因家庭变故和疾病等成为贫困生的遴选。
参考文献
[1]严海波.我国高校贫困生资助政策演变及现状研究[J].中国成
人教育,2015(9):63—65.
[2]朱剑林,朱容波,康怡琳,等.教育大数据在高校贫困生预测中
的应用研究[J].教育教学论坛,2018(21):267—268.
[3]廉文武.数据挖掘下贫困生认定辅助系统设计研究[J].当代教
育实践与教学研究,2016(7):47—48.
[J][4]何秀全.校园一卡通数据分析及应用相关研究述评.华中师
范大学学报:自然科学版,2017(5):63—65,
[J][5]王萍.高校贫困生认定工作的现状及对策.长春教育学院学
报,2015(12):134—135.
[6]周红,邬海涛,赵桂芳,等.基于改进K-Means算法的高校贫困
生辅助决策系统[J].技术与市场,2016(12):225.
[7]张玺,呙森林,孙宗良,等.基于校园一卡通消费数据对高校贫
[J]困生分类的应用研究.数字技术与应用2016(8):100.[8]中国共产党第十八届中央委员会.中国共产党第十八届中央
委员会第五次全体会议公报[OL]. 据,这样可以对贫困生和非贫困生的基本情况进行 对比分析,可以更好的了解贫困生的生活状况,也可以发现未申报贫困生的潜在贫困生的学生名单。 3.通过获取更详细的“一卡通”其他交易数据,比如“一卡通”加款数据、“一卡通”消费刷卡终端信息,这样就可以更好的识别交易类型,剔除那些非就餐交易。后续的分析可以利用学生的消费行为进行改进的RFM建模,利用贫困生名单进行机器学习分类建模,利用学生就餐顺序进行网络关系建模。 4.获取教务系统数据,结合贫困生的学习状况 进行综合分析,可以用有限的资金尽可能资助贫困而学习成绩优秀的学生。 5.学生心理行为分析和学情分析。如获取学生政治面貌数据,比如党员、预备党员、入党积极分子等信息,可以更好了解贫困生的思想进步情况。 6.动态学情分析与贫困生筛选。贫困生的数据分析应该每月定期进行,动态跟踪贫困生的生活状 [9]国家自然科学基金委员会.2018年度国家自然科学基金项目 指南[OL]. [10]张瑞鸿,刘波,卞月妍.院校数据仓库架构与建设的过程研究 [J].高校教育管理,2017(2):26—33. [11]徐超超,陈世超,赵鑫硕,等.区域教育大数据中心平台建设探 讨[J].现代教育技术,2016(11):5—11. 因篇幅问题不能全部显示,请点此查看更多更全内容