IBM Watson中文名字叫做沃森,命名来自IBM 创始人 Thomas J. Watson 老沃森的姓氏。沃森最早出现在2011年2月美国老牌益智节目“危险边缘”(Jeopardy!),与节目史上最强的两位答题高手一较高下,并最终以优异的表现打败了人类选手。
沃森是继IBM深蓝超级计算机系统之后的下一代超级计算机。说起IBM“深蓝”可谓大名鼎鼎——1997年5月1日,国际象棋大师卡斯帕罗夫最终以25:35的比分输给了IBM RS/6000SP “深蓝”计算机,举世震惊。自此以后,关于机器智能的话题,就一直不绝于耳。
近年来,出现了不少关于机器智能与人工智能的电影,其中最为有名的包括《人工智能》、《超验骇客》、《超体》、《我,机器人》、《终结者》等,相信很多人都记得电影这句经典的对白:“你在哪里?”“我无处不在!”。人们对于机器智能的想象已经远远超过了现实的科技进展,沃森代表了迄今为止能够实现的最高机器智能。那么问题来了,沃森是谁?
沃森的历史
沃森把世界带进了一个新的计算纪元——认知计算。沃森的成功,是基于IBM百年的研究历史。IBM公司成立于1911年,至今已经超过百年历史。作为世界上第一家百年IT企业,IBM公司在众多技术领域一直处于最前沿,为此该公司每年投入超过60亿美元研发经费。深度问答(Deep Q&A)是人工智能一项重要分支领域,具有极为广阔的应用空间。自上世纪90年代人工智能研究陷入低潮以来,大多数商业公司已经停止或削减了在这个领域的研究支持,而IBM是少数坚持投入人工智能研究的企业。
严格来说,认知计算并不是完全的人工智能,认知计算强调的人与机器共存。早在1960年,历史上最有名的美国科学家J. C. R. Licklider写了一篇非常著名的文章《人机共存》,他预言“在不久的将来,人脑与计算机将紧密的连接起来,形成的人机合作伙伴关系,将比人脑更能思考,处理数据的能力将远超今天现有的计算机。”在认知计算时代,并不是机器取代人类,而是人机协作从而创造出更好的结果。
自从“深蓝”项目获得成功以后,IBM的研究员就一直在寻找下一个挑战。2004年,当时的IBM研究院总监Paul Horn问IBM的研究员们,自“深蓝”成功之后的下一个挑战,将是什么?时任IBM计算系统软件部门主管的Charles Lickel,提出了挑战“Jeopardy!”节目。沃森为什么要参加“危险边缘”而不是其它的益智问答节目?首先,“Jeopardy!”对于计算系统是一个巨大的挑战,因为它涉及学科广泛,涵盖了诸如历史、文学、政治、艺术、娱乐和科学在内的广泛主题。其次,“Jeopardy!”并不是简单的问答,它不仅停留在答案的准确度上,还同时测试了回答者的“信心”,因为答错就要扣分。第三,“Jeopardy!”最大的特点是抢答形式,一般问答系统只需要答案,而不管回答的时间。所以“Jeopardy!”对于超级计算机来说,是一个很好的衡量系统。
沃森的算法
从2004年提出挑战“Jeopardy!”的构想,到2011年沃森真正打败“Jeopardy!”,中间差不多经历了6年的时间。为什么会这么困难?
“Jeopardy!”的题目常常包含微妙含义、反讽、谜语等的种种线索,沃森之所以能够应付这种“狡猾”的试题,主要依靠的是它对自然语言的理解和高速的计算。当沃森被问到某个问题的时候,能够调用100多种运算法,通过不同的方式对问题进行分析,并给出很多可能的答案。在得出这些答案之后,另一组算法将对这些答案进行分析并给出得分。对于每个答案,沃森都需要找出支持以及反对这个答案的证据。因此,每一个答案都会再次引出数百条证据,同时由数百套算法对这些证据支持答案的程度进行打分。证据评估的结果越好,沃森的信心值也就越高。而评估成绩最高的答案,最终成为沃森给出的答案。因此在比赛中,如果连评估成绩最高的答案都无法树立足够高的信心值,沃森能决定不抢答问题,以免答错而输掉奖金。这所有的一切计算,选择与决策都在3秒钟之内完成。
可以看到,沃森计算机不是只为了增加数据储存空间或是搜寻的精准度,而是要分析比对海量数据,再协助人类从中挖掘各种更有创意、更创新的最佳解答,这是沃森的意义和价值。至于沃森长什么样?在2011年打败“Jeopardy!”的时候,沃森是由十台IBM商用服务器Power750组成的计算系统。2014年初的时候,由于科技的进步,沃森的体积已由一个卧室缩小到三个披萨盒子那么大,运算速度也是当时的 24 倍,智能水平更是之前的 2400 倍。
沃森还能做什么?
沃森并不是简单的机器学习系统,当IBM的研究员开始尝试构造沃森的时候,就发现传统的机器学习算法行不通。传统的机器学习算法先归纳知识,把知识形成规则,再让机器根据规则进行响应。而这不足以让沃森在“Jeopardy!”节目中胜出,因为数据量过于庞大,IBM研究员意识到,他们必须让沃森能够自行学习知识而无须人工干预。这就是后来大家所熟知的“Deep Q&A”深度问答系统。
IBM的研究们给“Deep Q&A”深度问答系统一个事先没有经过分类的、无结构的信息库,同时设计了一套算法,让系统能够自行从庞杂的信息库里抽取知识。经过学习和训练,Deep Q&A系统能够从原始信息中自动抽取知识,给知识进行分类,并且能够分析和理解语言。如此,沃森就能够像人类一样进行学习,并从发生的事件进行推理以及总结经验。因此,由于这样的任务已经超出了前代超级计算机的能力,IBM的研究员从头设计了沃森系统。
由前述可知,沃森在现实生活中有着广泛的应用前景。2014年初的时候,IBM宣布为超级计算机沃森创建一个新的业务集团,通过云计算模式向商业用户交付认知计算能力。IBM将推动一系列新的软件、服务和应用更快进入市场,这些新的软件、服务和应用能够在海量的大数据环境中进行思考,不断通过自学习得到提升,从而解答复杂问题并获取洞察力。特别是为了推动沃森技术的商用化,尽快为人类社会服务,IBM在云开发平台上推出了Watson API,开发者可以以云计算的方式,很容易地调用沃森的智能,从而构建自己的应用程序。
那么问题来了,沃森还能做什么?这个其实已经不取决于IBM,而取决于广大的开发者的创意。归根到底一句话,沃森的目的是与人类和谐共存,基于这个原则,沃森的世界很大。