凭借cw2vec方法,阿里健康拿下中文电子病历实体识别全国冠军

全国知识图谱与语义计算大会(CCKS2018)8月14日至17日在天津举行,凭借出色的专业能力,阿里健康团队在中文电子病历命名实体识别评测任务中夺冠。 电子病历结构化是让计算机理解病历、应用病历的基础。基于对病历的结构化,可以计算出症状、疾病、药品、检查检验等多个知识点之间的关系及其概率,构建医疗领域的知识图谱,进一步优化医生的工作。 目前主流的中文实体识别方法主要沿用自英文和其他语言的通用方法,并没有把中文的特色发挥出来。而正如英文中可以根据单词的词根词缀来猜测其意义和性质一样,汉字的笔画及偏旁部首中也蕴含着大量信息。阿里健康团队以两种序列标注算法为基础,首次在医疗文本领域采用了cw2vec的方法构建词向量矩阵,基于全部的非标注文本和标注文本集训练词向量,以解决新字无法识别的问题;同时改进了汉字结构和拼音的特征的一般方案。最终,团队以严格指标0.8913取得了第一名的好成绩。

本文内容仅供参考,不构成投资建议,请谨慎对待。

评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容
投资日历
更多