李阜阳
金山办公NLP算法组负责人
浙江大学硕士,现任金山办公NLP算法组负责人,擅长深度学习、自然语言处理、语音识别等。基于自然语言处理技术和海量的文本数据,主导研发了WPS文本智能校对系统,该系统曾入选2020年湖北省人工智能十大优秀应用案例。金山办公NLP算法小组深耕NLP技术,落地了机器翻译和文本智能校对等AI项目。
演讲主题
WPS文本校对系统在智能办公场景的落地实践
WPS文本智能校对系统涵盖了拼写错误、语法错误(冗余、乱序、缺字)、诗词、标点、敏感词检测等几十种错误类型。本系统每日调用量超过10亿字符,大幅提高人工校对的效率。中文纠错的两大难点:第一,缺乏真实的人工标注数据,纠错训练数据相较于其他常见的nlp任务(如实体识别、机器翻译、摘要等)难获得很多;第二,中文语义复杂,单一端到端模型难以起到好的效果,落地需要复杂的算法处理系统。WPS校对系统错字检测与候选字召回模块采用无监督拼写检查模型、监督学习拼写检查模型、语法纠错模型、20余种专家知识校对算法等对文档中的错别字词进行初步召回。为了进一步提升用户体验,采用基于BERT、Glove、Ngram、拼音、字形等多特征多模型的排序算法降低误报。