[迪士尼坚持翻包检查 ]为什么“独角兽”很难在NLP出现?

作者: admin

    比尔盖茨曾经说过,“语言理解是人工智能之冠上的明珠”。自然语言处理的进步将促进人工智能的全面进步。NLP的历史几乎和计算机和人工智能的历史一样长。自计算机诞生以来,人工智能的研究一直在进行,人工智能领域最早的研究是机器翻译和自然语言理解。

    随着大型数据技术设施的完善,人工智能技术近年来迎来了井喷发展。在业界,许多专注于计算机视觉的公司也取得了相当大的进步。其中,价值超过20亿美元的上塘科技经历了几轮大规模融资,从独角兽到巨人都有一个隐藏的趋势。

    然而,人工智能的另一个相关领域,自然语言处理,似乎没有达到这个水平。在技术上,该领域的技术精度远未达到计算机视觉和语音识别的水平,由于误差率高,技术产品缺乏实用价值。那么NLP技术的难点是什么呢?

    什么是NLP?

    在人工智能出现之前,计算机只能处理结构化数据,例如我们通常使用的表中的数据,但是网络中的大多数数据都是非结构化的,例如文章、图片、视频等。在这些数据中,文本数据通常是最大的。为了分析和利用这些文本信息,我们需要使用NLP技术使机器理解和利用这些文本信息。

    人类可以通过语言进行交流。为了使计算机互相通信,人们使所有的计算机都遵守一些规则。这些计算机规则是计算机之间的语言。自然语言处理(NLP)是机器语言与人类语言之间实现人机通信目的的桥梁。

    NLP的两部分:NLU和NLG

    目前,NLU的应用主要集中在机器翻译、机器客户服务、智能扬声器等领域。然而,由于需要大量的数据训练,以及NLU本身的一些语言和语义上的困难,实际上,机器并不是很智能。

    自然语言生成是自然语言生成的重要组成部分。NLU负责理解内容,NLG负责生成内容。他的主要目的是缩小人与机器之间的交流差距,将非语言数据转换成人类能够理解的语言格式。

    自然语言生成-NLG有两种方式:

    文本到文本:文本到语言生成

    数据到文本:数据到语言生成

    NLP的困难

    对于机器来说,困难主要分为五类:

    语言多样,我们日常使用的语言是不规则的,不同的组合可以表达很多意义。

    语言歧义,如果与语境无关,缺乏环境约束,语言就有很大的歧义。

    语言是一个开放的集合,我们可以随意发明和创建一些新的表达式。

    语言需要知识依赖和实践知识。

    语言环境

    应用场景很复杂,很难看到“独角兽”

    一般来说,NLP技术没有出现的原因,如计算机视觉领域的独角兽公司,是因为自然语言处理技术太难,应用场景太复杂。公司的建立和发展是由需求驱动的。自然语言的应用主要是机器翻译。尽管机器翻译的需求由来已久,但机器翻译的水平并没有取得突破。即使在今天,机器也很难翻译有背景的复杂句子。

    此外,NLP的应用程序对用户界面的依赖度太高。图像识别基本上不需要用户界面,因此需要在系统中直接集成一些技术。有些公司做翻译软件。如果用户界面不好,用户体验不好,人们就不想使用它。

    技术产业化最重要的是商业模式,即如何使技术赚钱。图像识别公司的盈利模式已经建立起来,但要支付翻译费用却困难得多。因此,自然语言正面临着一系列的挑战,从研究到技术,从落地到商业化。目前的情况是,自然语言处理技术更多的是作为公司内部技术,如内部商务智能或人机界面功能。

    NLP技术的发展是可以预见的

    从今年的acl会议上,我们可以看到expl