AI时期|大数目成人工智能应用主要

在医疗保健里面,基因的缺陷和很多疾病都有关系,要想搞清楚其中的关系:
传统的方法是通过实验才能清楚某一段基因的机理,但这可能是个漫长的过程。还需要考虑到它的缺陷带来的身体的变化,再研究这种变化可能导致的疾病,或者什么情况下会导致疾病。但科学家研究几十年,都很难找到很多疾病的关系。
而数据统计方法与这些正好相反,可以从数据出发,找到基因缺陷与疾病在统计上的相关性,然后再反过来分析这种相关性的内在原因。

图灵测试

让一台机器和一个人坐在幕后,让一个裁判同时与幕后的人和机器进行交流,如果这个裁判无法判断自己交流的对象是人还是机器,就说明这台机器有了和人同等的智能。就是大名鼎鼎的图灵测试。后来,计算机科学家对此进行了补充,如果计算机实现了下面几件事情中的一件,就可以认为它有图灵所说的那种智能:

图片 1

智能时代:大数据与智能革命重新定义未来

第二次AI低谷:1987 – 1993

“AI之冬”一词由经历过1974年经费削减的研究者们创造出来。他们注意到了对专家系统的狂热追捧,预计不久后人们将转向失望。事实被他们不幸言中:从80年代末到90年代初,AI遭遇了一系列财政问题。

变天的最早征兆是1987年AI硬件市场需求的突然下跌。Apple和IBM生产的台式机性能不断提升,到1987年时其性能已经超过了Symbolics和其他厂家生产的昂贵的Lisp机。老产品失去了存在的理由:一夜之间这个价值五亿美元的产业土崩瓦解。

XCON等最初大获成功的专家系统维护费用居高不下。它们难以升级,难以使用,脆弱(当输入异常时会出现莫名其妙的错误),成了以前已经暴露的各种各样的问题的牺牲品。专家系统的实用性仅仅局限于某些特定情景。到了80年代晚期,战略计算促进会大幅削减对AI的资助。DARPA的新任领导认为AI并非“下一个浪潮”,拨款将倾向于那些看起来更容易出成果的项目。

1991年人们发现十年前日本人宏伟的“第五代工程”并没有实现。事实上其中一些目标,比如“与人展开交谈”,直到2010年也没有实现。与其他AI项目一样,期望比真正可能实现的要高得多。

2005年,第一次做机器翻译的Google请来了机器翻译专家弗朗兹.奥科,一年之后做出了当时世界上最好的机器翻译系统,在NIST的年度评审结果中,Google的BLEU得分51%,领先第二名5%,而基于语法规则翻译的SYSTRAN仅为10.79%。奥科的秘诀却还是两年前的方法,利用了比其他研究机构多几千甚至上万倍的数据,训练出一个六元模型。一般来说,要估计N元模型的各个条件概率,要有足够多的数据,N越大,数据要越多。如果多使用两三倍的数据,机器翻译效果会好一点,但是几万倍的数据增加,量变的积累导致质变,就能达到更好的效果。

       
本书中,在使用人工智能表达时,通常是指传统的人工智能方法,有时强调为人工智能1.0。传统的人工智能方法指的是,首先了解人类是如何产生智能的,然后让计算机按照人的思路去做。“机器想人一样思考”。事实上,回到图灵博士描述机器智能的远点就能发现,机器智能最重要的是能够解决人脑所能解决的问题,而不是在于是否需要采用和人一样的方法。“鸟飞派”,即是看看鸟怎样飞,就能模仿鸟造出飞机,而不需要了解空气动力学。事实上,怀特兄弟发明飞机靠的是空气动力学而不是仿生学。“鸟飞派”产生,因为这是根据我们的直觉最容易想到的方法,模仿人或者动物的行为。

  • 1、语音识别
  • 2、机器翻译
  • 3、文本的自动摘要或者写作
  • 4、战胜人类的国际象棋冠军
  • 5、自动回答问题

没有数据支撑的个例没有任何参考意义

       
书中举例,机器翻译。2005年是大数据元年,之前在机器翻领域从来没有技术积累、不为人所知的Google,以巨大的优势打败了全世界所有机器翻译研究团队,一跃成为这个领域的领头羊。Google当时重金聘请了当时世界上水平最高的机器智能专家弗朗兹·奥科博士。奥科博士,采用的方法还是方式,组织大量的人力编写机器翻译使用的语法规则,但是用了比其他研究所多几千倍甚至上万倍的数据。但是,放奥科用了上万倍的数据时,量变的积累就导致了质变的发生。奥科训练出一个六元模型,而当时大部分研究团队的数据量只能够训练三元模型。简单地讲,一个好的三元模型可以准确地构造英语句子的短语和简单的句子成分只交的搭配,而六元模型则可以构造整个从句和复杂的句子成分之间的搭配,相当于将这些片段从一种语言到另一种语言直接对译过去了。这样准确性就相比那些在词组单元翻译的系统提高太多。

繁荣:1980 – 1987

在80年代,一类名为“专家系统”的AI程序开始为全世界的公司所采纳,而“知识处理”成为了主流AI研究的焦点。1981年,日本经济产业省拨款八亿五千万美元支持第五代计算机项目。其目标是造出能够与人对话,翻译语言,解释图像,并且像人一样推理的机器。

受到日本刺激,其他国家纷纷作出响应。英国开始了耗资三亿五千万英镑的Alvey工程。美国一个企业协会组织了MCC(Microelectronics
and Computer Technology
Corporation,微电子与计算机技术集团),向AI和信息技术的大规模项目提供资助。DARPA也行动起来,组织了战略计算促进会(Strategic
Computing
Initiative),其1988年向AI的投资是1984年的三倍。人工智能又迎来了大发展。

图片 2
早期的专家系统Symbolics 3640

专家系统是一种程序,能够依据一组从专门知识中推演出的逻辑规则在某一特定领域回答或解决问题。最早的示例由Edward
Feigenbaum和他的学生们开发。1965年起设计的Dendral能够根据分光计读数分辨混合物。1972年设计的MYCIN能够诊断血液传染病。它们展示了这一方法的威力。专家系统仅限于一个很小的知识领域,从而避免了常识问题;其简单的设计又使它能够较为容易地编程实现或修改。总之,实践证明了这类程序的实用性。直到现在AI才开始变得实用起来。

专家系统的能力来自于它们存储的专业知识。这是70年代以来AI研究的一个新方向。Pamela
McCorduck在书中写道,“不情愿的AI研究者们开始怀疑,因为它违背了科学研究中对最简化的追求。智能可能需要建立在对分门别类的大量知识的多种处理方法之上。”
“70年代的教训是智能行为与知识处理关系非常密切。有时还需要在特定任务领域非常细致的知识。”知识库系统和知识工程成为了80年代AI研究的主要方向。

1982年,物理学家John
Hopfield证明一种新型的神经网络(现被称为“Hopfield网络”)能够用一种全新的方式学习和处理信息。大约在同时(早于Paul
Werbos),David
Rumelhart推广了反向传播算法,一种神经网络训练方法。这些发现使1970年以来一直遭人遗弃的联结主义重获新生。

大数据的价值

       
大数据的特征概括为三个V,即大量(vast),多样性(variety),及时性(velocity)。在大数据之前,计算机并不擅长解决需要人类智能来解决的问题,但是今天这些问题换个思路就可以解决了,其核心就是变智能问题为数据问题。

今天,计算机已经做到了上述的这几件事情,甚至还超额完成了任务,比如现在的围棋比国际象棋要高出6-8个数量级,当然,人类走到这一步并非一帆风顺,而是走了几十年的弯路。

人工智能这几年有了这么大的突破,其中一个重要的推动力就是大数据。在大数据这个概念出现之前计算机并不能很好的解决需要人去做判别的一些问题。所以说如今的人工智能不如说是数据智能,人工智能其实就是用大量的数据作导向,让需要机器来做判别的问题最终转化为数据问题。

作者:吴军

计算机之所以能够战胜人类,是因为机器获得智能的方式和人类不同,它不是靠逻辑推理,而是靠大数据和算法。Google使用了几十万盘围棋高手之间的对弈的数据来训练AlphaGo,这是它获得所谓“智能”的原因。在计算方面,Google使用了几十万台服务器来训练AlphaGo下棋模型,并让不同的AlphaGo相互对弈上千万盘。第二个关键技术是启发式搜索算法-蒙特卡洛树搜索算法(英语:Monte
Carlo tree
search;简称:MCTS),它能将搜索的空间限制在非常有限的范围内,保证计算机能够快速找到好的下法。由此可见,下围棋这个看似智能型的问题,从本质上讲,是一个大数据和算法的问题。