机器学习在社会调查职业编码中的应用

时间：分类：文学论文浏览次数：

内容摘要：问卷调查一般通过开放文本题采集职业信息。这种题型虽能提供丰富信息，但数据管理复杂，需要将原始数据进行编码。传统的人工编码法耗时耗力。本文首次尝试将机器学习中两个常见分类器朴素贝叶斯和支持向量机运用在中文职业文本编码上。结果显示，

　　内容摘要：问卷调查一般通过开放文本题采集职业信息。这种题型虽能提供丰富信息，但数据管理复杂，需要将原始数据进行编码。传统的人工编码法耗时耗力。本文首次尝试将机器学习中两个常见分类器“朴素贝叶斯”和“支持向量机”运用在中文职业文本编码上。结果显示，它们在职业大类编码上的表现令人满意，但在职业细类上性能不足，而且在不同职业类别间性能差异很大，其中“农林牧渔水利业生产人员”和“不便分类的其他人员”的分类效果较好。

　　关键词：职业编码;问卷调查;机器学习;朴素贝叶斯;支持向量机

西南民族大学学报

　　一、引言和文献综述

　　大型社会调查经常通过两种模式来获取职业相关信息。一种是封闭题型设计，让受访者直接选择单位类型、行业和职位信息，使用这种设计的国内大型调查有北京师范大学的“中国家户收入调查”(ChineseHouseholdIncomeProject，CHIP)和西南财经大学的“中国家庭金融调查”(ChinaHouseholdFinanceSurvey，CHFS)。

　　另一种是文本开放题型，通过一系列的开放型问题进行文本信息获取，譬如询问受访者的工作单位名称、职位名称、工作的具体内容等。一般认为封闭题型在职业信息的采集上虽然操作便利，但由于很多受访者对自己职业内容的分类缺乏了解，数据质量可能不高，而且封闭型的职业数据只能提供职业大类信息。

　　开放型问题所采集的数据能够提供更为细致的职业分类，因此不少大型调查采用开放题来采集职业和行业信息。使用这种设计的国内大型调查有北京大学的“中国家庭追踪调查”(ChinaFamilyPanelStudies，CFPS)和“中国养老与健康追踪调查”(ChinaHealthandRetirementLongitudinalStudy，CHARLS)，中国人民大学的“中国综合社会调查”(ChinaGeneralSocialSurvey，CGSS)以及中山大学的“中国劳动力动态调查”(ChinaLabor-forceDynamicsSurvey，CLDS)。

　　除此之外，中国的人口普查中所采集的职业相关信息也是利用开放题的方式获取的。在国际上，很多国家的大型住户调查以及普查也使用开放文本题获取职业信息，这些国际调查包括德国社会调查、英国人口普查以及美国社区调查等。与选择题相比，开放文本题能够采集更为丰富的信息[1]，但它同时也有两个突出的局限性。

　　一是开放文本的采集方式可能更容易造成采集数据的不完整性[2]。如果受访对象职业信息中关键部分缺失，后期可能无法通过记录的信息进行准确编码。这种现象通常是由于访员在访问过程中没有对不完整信息进一步追问造成的。访员会发生这种情况既有可能是因为访问时不够仔细，也有可能是因为他们无法准确判断受访对象所提供的信息是否已经足够。

　　二是针对开放文本的数据处理过程比常规的选择题更为复杂[3]。问卷调查中开放型文本的编码工作在国内一般采用全人工方式[4]。人工编码的流程主要包括以下步骤。首先，数据管理者或研究人员针对特定的采集内容制定或选择编码规则，譬如职业信息需要职业编码规则，疾病信息需要疾病编码规则。

　　然后，项目招募编码员进行培训，培训合格后的编码员开始对文本信息进行编码。由于文本信息的多样化，人工编码的一致性可能不高。为降低特定编码员对最终结果的影响，提高编码信息的准确度，一般数据管理者会采用“双向独立验证并判定”的工作模式。

　　它的具体方法是在第一阶段对每条文本信息由两位编码员进行独立编码，如果两位独立编码员的编码结果一致则直接通过，结果不一致时需要引入第三位经验较为丰富的编码员，如果该编码员的结果与之前任意一位一致则确定该编码为最终编码，当三人结果均不相同时由编码管理员(一般为资深编码员)审核并决定后续处理方法。

　　“双向独立验证并判定”工作模式的优点是编码结果质量较高，但它也有很大的缺陷，即这套流程成本高昂。仅以“中国家庭追踪调查”2016年成人库中的主要工作职业编码为例，2016年全国调查中有16840条样本有主要工作职业信息，双向独立编码则要求进行至少33680次编码。第一轮比对后发现双编码一致的比例为60%，再经过第二轮编码之后解决了总样本的19%，还剩下21%三轮编码都不一致，需要编码管理员的介入。

　　这也意味着仅主要工作的职业编码一项任务，需要进行近45000次的人工编码。而人口普查样本量比一般的问卷调查大得多，文本编码工作量更多。近年来，来自多国的学者都在尝试将机器学习应用到调查数据的文本编码中，但主要针对英文文本[5]。

　　机器学习在文本编码上的应用一般包括如下基本步骤：(1)将原始的文本拆分成词条信息，并去除无实质意义的语气词和连接词等(在文本挖掘中被称为停用词stopwords);(2)利用已经完成的编码及其相应的文本当作训练数据集;(3)根据训练数据集确定分类规则(也称为分类器)，也即将原始文本与最终编码对应的潜在规则;(4)根据确定的分类器对新的文本分配编码[6]。研究者们普遍发现机器学习在大型问卷调查的编码工作中应用前景广阔，但在性能方面仍需改善[7]。机器学习在中文职业文本编码中的应用还鲜有学者探索，由于中文文本的预处理与包含空格分割符的英文文本结构存在一些根本的区别，针对中文文本的职业编码也许更具有挑战性。本文的目标就是探索两种常见的机器学习方法在中文大型问卷调查职业文本编码中的基本性能。

　　二、数据来源与研究方法

　　(一)数据来源

　　本文数据来自具有全国代表性“中国家庭追踪调查”(CFPS)2010年、2012年、2014年、2016年的数据[8]，不仅有这4轮调查已经公开发布的包含最终职业编码的数据，还有职业文本的原始信息。这些原始文本和人工编码结果将作为本文进行有监督的机器学习中的数据资料，总数据的条目为164610。

　　(二)编码系统

　　CFPS的编码规则与“中国综合社会调查”类似，基于国标GB/T6565-1999进行了适度改编。这一编码规则将所有职业分成8大类，595个小类。8大类分别为“各级负责人”“专业人员和技术人员”“办事人员和相关人员”“服务人员”“农林牧渔水利业生产人员”“生产、运输设备操作人员”“军人”“无职业者”。

　　在每一个职业大类下，还设有多个职业小类。譬如“农林牧渔水利业生产人员”这一大类就包括“种植业生产人员”“林业生产及野生动植物保护人员”“畜牧业生产人员”“渔业生产人员”“水利设施管理养护人员”和“其他农、林、牧、渔、水利业生产人员”这几个职业中类下面的30个职业细类。职业编码的目标就是将原始的职业文本转换成这些职业编码。

　　虽然标准职业编码中只包含有8个职业大类，但在实际的编码操作过程中，添加了第9类“不便分类的其他人员”，用来囊括那些信息不完整无法分类或是新兴职业中未能被旧的职业编码体系涵盖到的类型。譬如，访员如果将受访对象的职业文本记录为“在外打工”，由于缺乏足够的信息，编码员就只能将其归类为“不便分类的其他人员”。

　　(三)基于机器学习的分类器

　　可以用于文本分类的方法较多，本研究选择其中最常见的两种分类器“朴素贝叶斯”和“支持向量机”。朴素贝叶斯是以贝叶斯理论为基础，利用先验概率与条件概率进行分类。贝叶斯算法是在概率框架下实施决策的基本方法，在相关概率已知的理想状态下，利用先验概率和条件概率来估计后验概率，从而预测出文本信息出现在每个类别中的可能性大小。

　　朴素贝叶斯算法假设各个特征之间是相互独立的，这样极大简化了条件概率的计算，根据在训练集中出现的情况来计算文本属于某个类别的概率。文本属于某个类别的概率等于文本中每个特征属于该类别概率的综合表达式。

　　(四)分析方法

　　本文使用的主要分析软件是开源软件Python3，需要用到Python3的第三方库Scikit-learn。文本编码的第一阶段工作就是原始文本信息的预处理。文本的预处理是机器学习的基础，预处理的质量对分类效果起到关键作用。首先本文将利用现有的中文分词工具，在Python3里实现分词以及词性标注，采用分词颗粒尽量小的方式，并简单去噪声。

　　当初始的分词完成之后，每个词条所带的信息量有所不同。对于那些对最终分类几乎没有影响的分词(停用词)，将其删除。在训练分类器时，将原始数据集随机分成训练集(占总样本的70%)和测试集(剩余的30%)两部分，通过机器学习的各种算法基于训练集来建立文本到编码的对应规则，然后通过测试集来评估各种算法的效果，选出最优算法。

　　(五)评估标准

　　本文将通过如下指标来评估编码质量。总体精度(Accuracy)：总体测试样本中编码结果与人工编码结果一致的比例。分组准确率(Pi)：测试样本中所有被分类到某一具体类别的观测中正确分类的比例。分组召回率(Recall:Ri)：测试样本中应该被分类到某一具体类别的观测中正确分类的比例。F1分数：综合考虑准确率和召回率的指标，它的计算方法是2PR/(P+R)。

　　三、实证结果

　　大类编码上的总体精度。总的来说，两种方法的分类精度都呈现出不错的水平，基本达到90%以上。针对训练集的精度比测试集略高，但二者相差并不大，表明在职业大类的分类上针对训练集的过拟合现象并不明显。支持向量机的总体精度略高于朴素贝叶斯。

　　四、结论和讨论

　　本文尝试利用“中国家庭追踪调查”2010—2016年间4期数据超过16万条职业编码信息来初步探索机器学习中两种常见的分类器“朴素贝叶斯”和“支持向量机”在中文职业编码工作中的可行性。总体来说，两种分类器在职业大类编码上的表现尚可，总体精度在测试集中近0.90，但在不同大类之间分类性能也有明显差别。“朴素贝叶斯”和“支持向量机”在职业细类编码上的总体表现不如职业大类，总体精度不到0.80。

　　同样地，在不同职业类别之间，分类器的性能也有明显差异，“支持向量机”的总体表现要稍优于“朴素贝叶斯”。本文的发现与基于英文职业文本编码的结果类似，机器学习在职业编码上的应用具有良好前景，但性能上还需进一步提高。基于这个发现，一方面要探索进一步提高各机器学习分类器性能的方法;另一方面要将机器学习与人工编码相结合，并不是完全放弃人工编码，利用逐步过渡的方式，减轻人工编码工作量，提高工作效率。

　　本文的研究发现还对访员培训以及数据实时核查提供了有意义的反馈信息。譬如，职业大类编码的混乱矩阵显示“各级负责人”和“服务人员”之间的编码容易混淆，这意味着在访员培训和数据实时核查中可以特别关注能区别这两类职业人群的关键信息是否存在。本文的探索性研究表明，机器学习在中文职业编码特别是职业大类编码上有较好的应用前景，但在职业细类编码上的准确率还不高，还需进一步探索如何提高分类器性能。

　　参考文献

　　[1]吴晓刚,张卓妮.户口,职业隔离与中国城镇的收入不平等[J].中国社会科学,2014(6):118-140.

　　[2]SchierholzM,GensickeM,TschersichN,etal.OccupationCodingduringtheInterview[J].JournaloftheRoyalStatisticalSociety:SeriesA(StatisticsinSociety),2018,181(2):379-407.

　　[3]潘绥铭,黄盈盈,王东.问卷调查:设置“开放题”是一种失误[J].社会科学研究,2008(3):81-85.

　　[4]任莉颖,邱泽奇,李力,等.社会调查中职业问题编码的方式与质量研究[J].浙江大学学报:人文社会科学版,2012,42(3):210-219.

　　人文社科方向评职知识：人文社科论文发表期刊推荐

　　《西南民族大学学报(人文社会科学版)》(月刊)曾用刊名：西南民族学院学报(哲学社会科学版)，是人文社会科学综合性大型学术理论刊物。创刊于1979年，2000年由双月刊改为月刊。本刊物反映西南地区各种民族问题的最新研究成果，注重基础理论研究，密切关注人文社会科学的各种热点难点问题的研究。

上一篇：新中国建立以来国家政策与云南新平花腰傣“小婚”习俗的改变下一篇：高校图书档案数字化建设研究