Pandula 系列产品

基于形态句法语义的自然语言处理(NLP)/自然语言理解(NLU)产品


Pandula Express简洁版

基于NLP/NLU分析引擎

这是一个简单而实用的系统,可利用最低层级快速而有效地分析简单语句,适用于分析理解一般性的或相对简单的语句。

这是一种基于结构化语法语言模型的分析,利用句法语义词汇模版进行自然语言处理和理解(NLP+NLU)一体化分析,可用于展示出词汇的序列,或特殊要求下的关键词汇序列。

系统提供存放分类模版的“模版组”标记,分别对应各自的语义范畴结果。由于“模版组”与从属于普通语法的句子无必然联系,因此自然语言处理的中间结果往往在最终分析成果(仅针对自然语言理解)中才得以体现。

相对于高层次的复杂的NLP/NLU分析,底层模型更加容易而且快速开发,特别是利用有限的模型分析最简单类型的句子。

这种句子尽管简单却会被频繁使用,特别是在通常的对话应用中,因此对于从简单到中等复杂程度的对话环境,这一层级分析的重要性和能力不可低估。

这一层级模型还常常被用作其他高层级应用的初始模型。

优势:

  • 可直接快速地利用集NLP和NLU于一体的技术开发基本而实用的语言模型。
  • 可作为更复杂对话模型的“快速启用”对话系统。
  • 这一层级的作用始终存在,被用以快速分析频繁出现的简单句子,参见Pandula多策略版

不足::

  • 某些略微复杂的句子结构可能会出现问题,并常常导致分析结果缺失。
  • 对于不同语言的输入缺乏灵活性。


Pandula Sharp精英版

灵智而准确的NLP/NLU

本版本采用NLP和NLU层分离的技术,兼容树形的依存关系。除了产生一个最恰当的分析结果之外,不产生其他中间剖析丛。

NLP

适用于从简单到中等复杂程度的自然语言处理应用。

中等复杂程度的语言出现在大多数的情况下,通常人们的对话使用较多短句,此时本系统可有不错的表现。而对于专业领域中的更加复杂的用户语言和更多的语言技巧,此系统将可能丢失重要分析内容而产生歧义,此时适用Pandula Deep增强版。

Pandula Sharp精英版的引擎输出通常表现为一个依存关系树的形式,分析结果为其中的分枝。

优势:

  • 较高的NLP处理速度,这对于许多应用十分重要
  • 灵活性高
  • 对于错误或部分错误(语音)识别的句子的强健性相对较好
  • 语言模型开发时间相对较短(大约2~4月)
  • 高度整合NLP和NLU层,便于更快开发模型

不足:

  • 对于较为复杂句子的歧义消除不可靠
  • 从句和介词短语中毫不相关的句法元素可能会被认作是相关的传送给NLU
  • 不考虑其他存在的句法的分析(剖析丛),从而只是在句法层面作出主要的歧义消除,而不是在更好更准确的语义抑制上

NLU

NLU系统是基于:

  • 短语的语义角色分配和
  • 继承以及
  • 对词条的衍生语义属性的检查

简单到中等复杂的自然语言的理解,建立在一组有限的语义角色和对一定范围的继承的基础上。而底层的本体相对比较简单。

正在开发的新版本将对实体性能做较大改善。

优势:

  • 加快开发时间
  • 可选项:很少或不依赖于外部本体资源。
  • 本模型可作为Pandula Deep NLU的初始模型。
  • 在下一版本中提升现有概念的性能

不足:

  • 不推荐用于多种结构语义下的复杂情况(很快将会改善)
  • 当前版本下此概念性能提升有限


Pandula Deep增强版

深入透彻的NLP/NLU技术

这是Pandula产品中最复杂的技术,利用NLP和NLU层的局部互动,并兼容树形依存关系。NLP/NLU过程产生涵盖全面的兼顾各种广泛而复杂可能性的中间剖析丛。

NLP

这一自然语言处理技术最适合分析兼容(=符合)语言模型的复杂语句。按照纳科的技术,该模型可以十分详尽,并且可以包含几乎全部模型方面的所有可能信息。纳科的快速剖析器可产生一个句法剖析丛,包含一个句子结构中的多种相抵触的假定含义,各自都具备可能性,有待NLU的更正,之后会生成高度可信的歧义消除。

优势:

  • 可处理十分复杂的句子
  • 高可信度的歧义消除
  • 灵活度高
  • 即便对于同一个语言模型,速度和深度都可量化扩展

不足:

  • 特别对于具有多个句法歧义的长句会相对较慢
  • 对于错误句子的容忍度有限,应当将经常发生的语言错误象正确的一样整合到模型中
  • 相对较长的语言模型开发时间(3~10个月)

NLU

这个层面的NLU是最非凡的,要从字面上对一个句子进行几乎最全面的理解。这也包括消除句子间的首语重复。

句间消除技术已经存在,但是只是对话系统或另一可选超语句引擎(参见 Suboption NLUDeep+)的实例。

为了使理解能力最大化,应将一个具备至少广泛下位词/上位词关系的通用的和特殊的本体系统附加到整个系统中,包含词汇和NLP层。另一个重要的可选的本体项是“与…有关”-关系。

Suboption NLUDeep

对于从低级到高级复杂程度的自然语言理解,是建立在十分精细化的本体和一个几乎没有限定的继承范围的基础上。

纳科自有技术中的特有的递归技术可以更加灵活地理解和处理更多含义的结构模版,以系统智能的表现产生直接的成果。

优势:

  • 保持长期的最佳技术
  • 系统智能化在语言理解方面的重要进展
  • 通用本体的开发时间常可因使用譬如WordNet之类的资源而省却
  • 能够定期升级和改善通用本体的版本
  • 便利实用的多语言WordNet(参见维基百科“Wordnet”)

不足:

  • 高度依赖外部本体资源,有些资源的价格变化难以预测。
  • 部分依赖次优标准以及合作方的妥协结果
  • 本体的特殊领域定制仍然需做很多工作

Suboption NLUDeep+

与NLUDeep 基本相同,只是增加了指代消解层,从而类似“他”、“它”、“那个”、“然后”等单词和语句,即使出现在其他句子中,也可匹配正确的语义内容。

优势:

  • 这是人工智能系统的重要部分

不足:

  • 要略微多花时间遵从NLUDeep开发模型


Pandula -Multistrategy组合策略版 NLP/NLU选项

本选项是兼顾NLP/NLU层的对前述Pandula各项的综合利用:

以上各层级以处理速度为反序排列,但以精度为正序排列。

处理句子时,通常所有层同时开始处理,第一个达到要求结果水准的层会中止其他层并覆盖其他层的结果。

本技术用于同时处理所有复杂度的句子。NLP会同与其对应的NLU策略,争相尽快寻求出所处理句子的高合理可信度的分析结果。

优势:

  • 长久保持业内的最优技术,权衡处理速度与质量的最佳关系
  • 十分简单和十分复杂的句子都可以处理
  • 高效:略为失当的策略只有限地降低速度性能。
  • 可动态调整处理能力。
  • 高可信度的歧义消除
  • 对于不规范的句子具备相对较好的适应性
  • 灵活性十分高

不足:

  • 不是句法分析速度的最高性能
  • 相对较长的模型开发时间(4~10个月)
  • 部分产品仍然开发中