浅谈 AI简历解析 系统

2018年5月21日

 

A浅谈 AI简历解析 系统

 

从事招聘行业的工作人员每天无法避免接触的就是大量简历,但偏偏每个人写的简历都非常不一样从中提取需要信息并记录归档是一个非常沉闷而繁重的事情。

考虑以下几个场景:

  • HR希望快速筛选出来本科以上的同学,因此规定所有申请者必须在简历名称以姓名,学校,专业的格式来命名。

  • 猎头在获取大量简历后,花大量时间对其进行归档和管理。

  • 申请人在申请工作时,花很多时间把自己简历里的信息对应填写到公司或网站规定的位置上

 

其实以上三个场景本质上都是一个问题,就是如何将任意简历变成结构化信息。试想如果有一个工具,输入任意格式的简历,能够准确地读取出里面所有的信息,如姓名,地址,教育经历,工作经历等,然后对自己想要的条件进行百度般地搜索,一定能大大减少招聘人员的工作时间。小析智能简历解析拥有行业最精细准确的简历信息提取技术,一秒内能解析并记录5份的简历,能够最大限度地节省您的录入时间。

下面简单介绍小析简历解析的技术优势。

 

  1. 格式转换灵活,准确率不随格式而改变

    市面上大多数的简历解析系统对于各种类型的格式都是统一用一个标准工具将其转化成txt(纯文本)然后对内容进行读取,因此不同格式的简历可能会因为转化方式单一导致信息的错漏,针对这个细节,小析团队花了上百小时对每种常见格式进行研究(pdf, docx, html等),对每种格式都设计了最优的转化方案,争取不同格式的简历都能得到完整的信息。

  2. 模仿人类思维,各经历模块划分更精准

    传统的简历解析,需要依赖大量的段落关键词,设计规则来对不同模块进行划分。如简历某一行出现了教育经历/学习经历/education experience, 则说明下面的内容属于教育模块。如出现了工作经历/实习经历/实践经历则说明下面内容属于工作经历模块。这种设计方式看似合理,实则与人类思维方式实在不同,试想如果该简历没有使用模块关键词,或者使用了的词库没有的模块关键词,则整个段落都漏掉了,回想下自己是怎么划分简历模块的,如果对于某一行,上文是该人的基本信息,而下面连续出现了多行都是学校的信息,则知道这里是基本信息和教育经历的划分点了, 因此为了模仿人类的思维,小析简历解析系统不设定任何关键词典,通过双向长短记忆神经网络(BiLSTM)模型引入上下文的序列信息,并加入条件随机场对模块间跳转概率进行学习(如大部分简历是从教育经历跳到工作经历,反过来则比较少),争取最大可能精确地划分模块信息

  1. 注重烹饪原料,使机器学习算法更有效

    机器学习简单来说,就是教机器读懂你希望它学会的东西,教学资料越好,越多,学习的效果就越好,不同于市面大多数简历解析是利用标准化简历为学习材料,我们收集了数十万份不同来源的简历作为学习材料,并对其进行了大量标注,以求得到最充分,最准确的学习材料。有了好的材料才能有机地结合我们的算法得到更好的效果。试问如果学习的材料都是错的,机器的学习能力越强,岂不是南辕北辙

  1. 做到有的放矢,着力优化关键字段准确率

    作为一个从事招聘行业的人,一个简历最关键的就是联系方式,地点,公司,岗位,学校,学历等,小析数据科学家团队把大量的经精力花在关键字段的优化上。对于每个字段都选择最优的提取方式,如联系方式,地点等用字段匹配的效果会更好(虽然落后),对于公司,学校的信息,站在巨人肩膀上,我们技术团队参考了近年各大优秀会议的相关论文,最终决定使用Iterated Dilated CNN的网络结构来进行命名实体识别。用人话来说,就是即使简历里出现的公司是小析科技(而不是小析科技有限公司),我们也能够根据上下文提取出来并知道这是公司名字。

 

非常感谢大家花时间来阅读,如果希望亲身体会一下简历解析的结果欢迎到小析智能的demo页面来进行测试。非常欢迎对此有业务需求或者对技术感兴趣的小伙伴与我们联系。