首页 行业资讯 宠物日常 宠物养护 宠物健康 宠物故事
您的当前位置:首页正文

数据挖掘技术在高校毕业生就业中的应用

2024-06-03 来源:好兔宠物网
维普资讯 http://www.cqvip.com 中国科技信息 2008年第1 4期 CHINA SCIENCE AND TEO-U ̄LOGY INFORMATION Jui.2008 在高校毕业生就业中的应用 郭佳陈春燕河北金融学院信息管理与工程系OTl 051 噪声的、模糊的、随机的数据中,提取 段:数据准备、数据挖掘和结果表达和解 随着高校毕业生人数的增加和管理镭息系统 出隐含在其中的、人们事先不知道的、但 释,一个完整的数据挖掘过程如图l所 的应用,声生并积累了大量的、复杂的毕业 又是潜在有用的信息和知识的过程。数据 不。 生就业信息数据 - 该文章利用这些数据,从 挖掘从数据中提取人们感兴趣的可用信息 1.2.1数据准备阶段 数据挖掘的角度 利用决策树算法对数据进 和知识,并将提取出来的信息和知识表示 这个阶段又可进一步分成4个子步 行分类,找出有助于学生顺利就业的一些规 成概念、规则、规律和模式等便于人们理 骤:数据集成、数据选择、数据预处理、 律,对提高毕业生就业率具有一定的指导意 解与利用的形式。 数据转换。 义 并且,数据挖掘是一个多学科交叉领 数据集成:将多个文件或多数据库运 数据挖掘;决策树;就业 域,它涉及数据库技术、人工智能、机 行环境中的数据进行合并处理,解决语义 器学习、神经网络、统计学、模式识别、 模糊性,处理数据中的遗漏和清洗脏数据 知识库系统、知识获取、信息提取、高 近年来,高校毕业生人数逐年增加, 等I 。】; 性能计算和数据可视化等学科。根据挖掘 就业压力不断增大,如何做好毕业生的就 数据选择:为知识发现的目标搜集和 任务,可分为分类/预测、数据总结、 选择有关的数据,这包括不同格式数据的 业指导,促进学生更好地就业,引起了社会 聚类、关联规则挖掘、序列模式发现、依 各方面的广泛关注。随着教育信息化进程 转换以及不同部 数据的统一和汇总; 赖关系或依赖模型发现、异常和趋势发现 数据预处理:对数据进行清洗和充实 的推进,将数据挖掘技术应用于高校毕业 等。其挖掘对象有关系数据库、异质数据 等预处理工作; 生就业指导工作,从大量的数据中发现隐 库、遗产数据库、空间数据库、时态数 藏的、有用的知识来指导毕业生少走弯路, 数据转换:数据转换的 个重要工怍 据库、文本数据源、多媒体数据库、面 是对数据进行编码,将数据库中字段、属 实现更快更好的就业,成为一个值得研究 向对象数据库以及Web、基因库等。其 的课题。 性的不同取值转换成数码形式,以有利于 应用领域包括商业、科学研究、天文学、 搜索。 1数据挖掘技术 保险业、电信业、教育、DNA分析等。 1.2.2数据挖掘阶段 1.i数据挖掘的概念 1.2数据挖掘的过程 这个阶段进行实际的挖掘操作,利用 数据挖掘(Data Mining,简称为DM) 数据挖掘是一个萃取(extracting); ̄ll展 各种方法从数据库中发现有用的模式和知 是一种半自动地从大量的、不完全的、有 现(presenting)新知识的过程,它有三个阶 识。模式是浓缩数据的信息形式,如精烁 数据库、表格、决策数、神经网络的权 值等。 表1训练样本集合 序号 专业成绩 英语成绩 社会任职 单位性质和就业方式 I 良好以上 :>400 有 事业—最用 中等 >400 育 尘l业一录用 3 曼好以上 >400 无 垒业—录用 4 基好强上 >400 有 垒l耍一聘角 5 中等盥下 <=400 无 碡盐 6 良好强土 <=400 有 企业—录用 是好以上 <=400 盘业一聘用 8 中等强下 <=400 寿 待韭 9 中蒋 <=400 南 壹盐—器羁 tO 皂好醴上 >400 无 盘业一聘用 tt 中等醴下 <=400 无 骛韭 1: 中等 >400 无 五三业一录薅 l3 审等 <=400 无 垒韭一骋用 图1 数据挖掘的一般过程 14 中等 <=400 无 企业一聘写 118 维普资讯 http://www.cqvip.com ≮ — 。≥ ≥ | 襄萎掘 :萋喜掘喜 缶萋萋蒌耋,;~ 萎兰: 囊蠢薹 萋攀计 羹 .一……一~, …) 一 .p, log:) 三 薹人誊数羹的近一墓增年加来以,及随高着校高学校生的管扩理招信,息毕系业统的生 ‘ ’ ’一……………… … 一让 一v个子集{s,s 一,s ,;其中S 包 一含了集合 联系,从而有助于学校加强对学生就蒜业指 的信 一列  囊 息,善囊 位性 禳 应 l >400育 C1 >400无 C2 2 >400育 C2 9 <=400南 C2 12 >400无 C2 >400有 C3 6 <=400有 c2 13 <=400无 C3 14 <=400 jE C3 <=400无 C3 10 >400无 C3 图2决策树根节点的测试属性 图3经数据分类生成的决策树 ll9 维普资讯 http://www.cqvip.com 卑氍毒 慧 年案 4强 CHINA SCIFJqCE AND 删INFOI ̄MATION Ju1.2008 中的类别标志属性的取值,分为4类(即 m=4):C1、c2、c3、c4,分别代表事 业、 。E(英浯成绩)= 6*1458+旦.l 565=1 519 lo2, 一 l02 一1:14 2—2 2… d 0.5+0.5:1 录用、企业录用、企业一聘用、待 当任职情况为有时:S =1 Sn 3 S31 1 S4l“。1, , 训练样本集S中共有14个元组,其中 cl、c2、c3、c4类所对应的子集R1、R2、 R 3、R 4中的元组个数分别为r 1=1, r2 5,r3=5,r4 3。为了计算每一个决 策属性的信息增益,首先利用公式计算集 合S的关于分类的期望信息量: E(英语成绩)= - 卜1 0 I(s s2l,s31,s41) 1. 1 3. — 。g 3 1. 1 1. 1 Gain(英语成绩)=1.458—1.333 0.125 侄P 1中任职情况为有时,s, --1 S l。。l S3l。。l S4l。。0, 6 。g — 。g: — 。g: =0.430+0.5+0.430+0.430=1 79 lisll’S l,S31,S4l户 当任职情况为无时:S, =0 S --2 S 32。“4 S42 2, l0 一 l。 !一 l。 3 一3 3 3 3 一3 j , ):j0,5,5,3)=一 吉一奇b 亩一I  o擘 古一云 og 舌 0.0714"(3.805)0.357*(1.486)0. 357*(1.486)0.214"(2.225)1.809 下一步,需要计算每个屙 的熵,即 客户年龄专业成绩、英语成绩、社会任职。 先看专业成绩属J性,观察专业的每个样本 值的cl、c2、c3、c4分布,对每个分布分别 计算信息熵: 当专业成绩为良好以上时:S =l S 2 S ,=3 S 0, lis_】,S2l’S31,S4l )= 。s 一 log 2 一 log, 一 s: 0:0 430+O.528+O.5:1.458 6 当专业成绩为中等时:S 一0 S: =3 S3:。。2 842 0, I(sl2,s ,s s41) 一 b :;一 5 。s ;一; 。s:;一 b : 【l:0 444+o 528:0.972 当专业成绩为中等以下时:S, =0 823=0 8 3 3--0 843--3, I(S13,523,833'843)一 !;_0 E(专业成绩)= 1 458+三 0972十三 0:0 972 .当英语成绩>400时:s l s! 。“3 S,,一2 S..=0, I(%,sal,S31,841)- 。g 一 。g 一 。g: 一 。g: i。=0・400+0 +0・528= 458 当英语成绩<=4【)(】时:sl2=0 s! =2 S =3¥42=3, ~I(st2,S22,S32'S42): , 。 o “ g i一; 。g! 一1og i=0,.5+1.065: 。 =I(sl ,s2 ,s s42)一 0 528+0.528+0 518=1 584 一 ’log、三一¨4log 兰一三log 三 在P 1中任职情况为无时,s, 0 ! — i— ! S =1 S --2 S ,=0, =0 5+0 +0 =1 S I(s,,,S ,,S ,¥42)= lo 、12:E(任职) 舌 9 o 1.624 0.528+0.389:0.91 7 3 一3 3 3 利用上述属.I生对当前分支节点进行相 1 1 E(任职)==: 584+ "0.91 7--1 -应样本集合划分所获得的信息增益分别 为: Gain(任职)一1.458 1.251=0.207 Gain(专业成绩)=, ,_, ,_)E(专业 因为任职属性的信息增益最大,所以 成绩)一1.809 0.972 0.837 以它为该分支的节点,再向下分支,类似处 理P2,最后得到的决策树如图3所示。 Gain(英语成绩)=, _,_)E(英语 成绩)=1.809—1.519 0.29 例如对于一个毕业生来晚,专业课程 Gain(任职):=== ,r^,r^,0)E(任职)=1. 成绩优秀,英语成绩突出,还担任过社会 809 1.624=0.185 职务,在就业过程中指导他既可以应聘事 业单位,也可以应聘企业,而且容易被录 由上述结果可知,属性专业成绩具有 用;又如一个毕业生专业成绩中等,英语 最高信息增益,因此成为决策树根节点的 成绩突出,可以指导他主要应聘企业,被 测试属性,如图2所示。 录用的可能性大;再有就是专业成绩只达 在样本中对属性专业成绩的3个取值 到及格,就要指导他转变就业观念,降低 进行分支,3个分支对应3个子集,分别 就业期望值,实现先就业再择业。 为: 数据挖掘作为一种新兴的数据管理和 P1={1,3,4,6,7,l0I 分析技术,将其引入高校毕业生就业指导 P2-=={2,9,12,13,l4 工作,刘‘提高工作效率,促进毕业生更快更 P3{5,8,11} 其中P3的样本都为C4类,因此对应 好地就业必将起到一定的现实意义。但毕 业生就业涉及的因素很多,如:当年社会需 分支标记为C4,P1和P2的样本类别不 求、国家政策等, 此,如何考虑这些因素, 定,因此需要对P1子集和P2子集分别递 使数据挖掘更好地应用到毕业生就业指导 归调用ID3算法。 在Pl中可求出余下的2个詹眭:英语 中是值得继续研究的问题。 成绩和任职情况的信息增益。 , 1’『 ,-)=一log 2 一 l。g — l。g! 在Pl中英语成绩>400时,s :l s =t s孔二:2 s =0, 毫 § 蠹010l蠢|0 0t|- 0 _ 。 | [1】杨会志.韵墙挖掘技术的主要方法及其 l j l l 2. 2 发展方向.河北科技大学学4 ̄2ooo 一 [2]张阐军.基于数据挖掘的eRM系统关键 0-5十O・5+0 5 1・5 技术研完及其应用.硕士论文 ̄2005 在P1中英语成绩<=400时,S1 2=0 [5】姜永波,孙向前.基于数据挖掘的客户 822 1 S 32 1 842 0关系管理.经济管理论坛.2oo5(9) , I(s1 ,s, ,s ,s∞)一 醐蛹≯≯ 000 00◇ 郭佳大学本科助教研究方向:信息管理。 120 

因篇幅问题不能全部显示,请点此查看更多更全内容