命名实体识别

命名实体识别

命名实体识别(Named EntitiesRecognition, NER)是自然语言处理(Natural LanguageProcessing, NLP)的一个基础任务,常用在信息抽取、信息检索、机器翻译、问答系统中。

命名实体是命名实体识别的研究主体,一般包括3大类(实体类、时间类和数字类)7小类(人名、地名、机构名、时间、日期、货币和百分比)命名实体。

评判一个命名实体是否被正确识别包括两个方面:

  • 实体的边界是否正确
  • 实体的类型是否标注正确
    主要错误类型包括文本正确,类型可能错误;反之,文本边界错误,标记的类型正确。

命名实体识别的主要技术方法分为:

  • 基于规则和词典的方法
  • 基于统计的方法
  • 二者混合的方法等。

基于规则的方法多采用语言学专家手工构造规则模板,选用特征包括统计信息、标点符号、关键字、指示词和方向词、位置词(如尾字)、中心词等方法,以模式和字符串相匹配为主要手段,这类系统大多依赖于知识库和词典的建立。

基于统计机器学习的方法主要包括:隐马尔可夫模型(HiddenMarkovMode,HMM)、最大熵(MaxmiumEntropy,ME)、支持向量机(Support VectorMachine,SVM)、条件随机场( ConditionalRandom Fields,CRF)等。


评论