资源描述
像外行一样思考,像专家一样实践
——科研成功之道
[日]金出武雄 著
马金成、王国强 译
第一章 像外行一样思考,像专家一样实践
第一节 海空天空的构思
美国人常说: “金出教授的头脑很活跃啊。 ” 大概是因为我经常大声说笑的缘故。 我常常认为,不能把研究工作当做一件很严肃的事情,应该把它当做一件有趣的事情去做。我这里说的有趣,是指精神上的放松,但内心仍然要认真对待。——那种感觉就像和很在意的人见面时候的感觉一样。
美国的研究现场充满海阔天空的思维方式
我从小就十分乐观,自从到美国生活后,更加磨炼了我这方面的性格。在美国的这二十多年
来,我在美国的研究现场有很深的体会,与日本相比,研究过程更加自由,更加豁达,思路
更加开阔。
在美国,研究者是通过竞争为自己争取研究经费的。负责分发经费的组织给出研究资金募集
的条款,我们则根据这些条款提出研究的方案和完成所需要的金额,并进行申报。如果被采
用了,便会获得研究经费。
在这些提供经费的组织当中,首当其冲的则数国防部的 DARPA组织,它为用于技术开发的
大学和企业提供的资金是最多的。DARPA 组织几年前曾经提出过一个奇怪的招募事项——
“征集只有用现在不知道的方法才能解决的项目提案” 。
对于这样的提案, 首先是要论证用现在已经知道的方法不能解决, 要是自己有什么新的想法,
则要写上“可能解决”等这样的字眼。
曾经有人问:用数学方法解决的问题算不算呢?得到的答案是:数学是一种现在已经知晓的
方法,所以不能接受该提案。这样的征集简直就像是在骗人。
国防总部都是这样的。但是他们提供的资金却相当可观。一个项目的经费是以几亿日元为单
位的。
不仅国防总部,就连我的大学,卡耐基 梅隆大学也是这样,每年也都要进行像“Wild Idea
Fund”这样的项目征集。所谓“Wild Idea” ,就是不寻常的,甚至可以说是一些听起来很荒
谬的想法。学校将向这一类的想法提供研究资金。
然而在美国社会,对这些荒谬、可笑,甚至荒诞无稽的想法,如果仔细考虑的话,会发现其
中有值得认真去做的地方。
三维国家全景图、灰尘传感器、苍耳子
在美国,一年中收视率最高的节目应该是一月份播出的,在超级碗举行的职业美式足球冠军争夺战。我在 2001 年 1 月开发了一套用于球赛转播的三维影像系统。这套系统是利用放置
在球场四周的机器人摄像机,形成可以在观众周围环绕显示的影像。那种效果,就像是电影
《骇客帝国》中高潮的那一幕。
2001 年“9 11”事件以后,全美国对保安和监视系统的兴趣越来越浓。
正是由于我发明了这套系统,所以就不断地有人问我能不能将系统扩充,制作出国家的三维
全景图。 “如果要是在阿富汗境内放飞数万个带有超小型摄像机的气球,使之覆盖全境,从
而形成山地的三维影像,不就能轻松找到拉登的藏身之处吗?”
还有人说:要是能散播几十万、几百万像灰尘一样大小的麦克风,不就能监听人们的脚步声
或是汽车的噪音等等各种各样的声音了吗?甚至还给出了如何收集监听信息和防止麦克风
被吸尘器吸走的方法。他们还说:在灰尘上装上小镜子,飞机飞行的时候从空中向地面发射
激光,灰尘就会被带动、调整镜子的方向,像西部剧中印第安人采用的通信方式一样,通过
闪光以 1、0传递信息。这个被他们称为灰尘传感器。
进一步想,在识别人的时候仅用监视器的话,如果巧妙化装一下就很难辨认了。要是可以散
播像苍耳子一样的小机器人,就可以通过被粘着人的血液识别其 DNA 来进行辨认,诸如此
类还有很多奇特的想法。
然而在美国,真的有人为这种想法提供研究资金。
好的构想正是来自于荒唐无稽的想法
如果你认为上述的那些事情无聊、 太傻, 那么你一定是个认真的人。 认真的人做事情的时候,
一定会尽力避免失败,一步一个台阶迈向成功。但是,为了产生出好的构想,发明出独创的
技术,极端一些,可以说是荒唐无稽,通常我们称之为思想的飞跃。这一点,对于研究者是
必不可少的。
而从现状出发,进行逻辑推理,最终得出结论。像这样的思考方法就很难实现飞跃。要想成
功的话就直接从结论起步去做,也就是要从希望的结果开始做下去。这就是一种外行人的思
考方法。
外行人也能做出“结果可能是这样”诸如此类的假设。但是,除非是经过训练的专家,否则
要想证明“一定就是这个结果” ,则是非常困难的。
人工智能研究的始祖之一、图灵奖和总统奖章的得主、受人尊敬的卡耐基 梅隆大学的大师
级人物—— A 纽维尔教授经常会满含热情地对学生讲: “世界上有这么多‘为什么呢?’
‘要是能解决那些问题该有多好啊……’像这样的问题。每一个问题都仿佛在呼唤着: ‘解
决我吧!弄清我吧! ’像等待着恋人那样在等着我们这些研究者去解决它们。 ”
我们应该怎么回答那些问题呢?研究就是要针对那些问题,与自然、与天意进行交涉。
“我要这么解决。 ”
第 3 页 共 56 页
“原来如此,这样就行了。 ”
“不行,会很麻烦,不要这样啊。 ”
在这样的交涉过程中,总结出结果,研究也就可能成功了。
第二节 有点幼稚、天真、牵强的想法
有些经过不断尝试终于成功解决的问题,后来发现解决过程完全没有按部就班进行,包括我
在内,想必大家都有过类似的经历吧。而在我们尝试过程中所产生的想法,甚至在本书中要
列举的重大成就,其最初阶段的想法实际上都是有点幼稚、天真、甚至是牵强的,可以说是
外行人的想法。但想要产生伟大的成果,没有知识和技术是远远不行的。
大陆漂移学说
20 世纪初期,德国气象学家 A 韦格纳有一次在远处看世界地图的时候突然发现,相隔大西
洋的南美洲大陆东侧海岸线与非洲大陆西侧海岸线的形状极其相似。 如果剪开地图把大西洋
拿走,并将两块大陆拼接起来,很不可思议地,对接得非常整齐。之后他就在想,是不是大
陆原本就是连在一起的,而后分开,像冰山一样浮在海上移动形成了现在这个样子呢?这个
就是著名的《大陆漂移学说》 。当时,大多数人都认为《大陆漂移学说》是异想天开,不可
信,他的学说也逐渐被忘记了。到了 20 世纪后半期, 《地球板块移动学说》 (地球表面是以
几个板块为单位水平移动的)的出现和发展,才使得《大陆漂移学说》有了定论。
这真是富有戏剧性。 韦格纳的 《大陆漂移学说》 并不只是以地图剪下来能整齐拼接为依据的。
他是一个科学研究者, 当然会进行一番研究, 并且发现两块大陆上都栖息着同种蜗牛等生物,
还有很多岩石种类、冰河遗迹等证据。但是,大陆漂移在海洋之上这种外行人的想法,还是
因为无法简单进行说明而没有得到人们的相信。
事实上,数年以后出现的《地球板块移动学说》 ,不能简单地说是《大陆漂移学说》的补充,
它还揭示了海洋底部是以海洋中的海岭为轴线向两侧不断扩大,不断生成。它是地球物理学
中的一个崭新理论,当然,这个理论也是在对地磁的正确观察的基础上而得出的。
从刚开始的构想到最终的实践,我们能从这个例子中获取很多有用的启示。其实,很多人都
会发现两块大陆的海岸线形状非常相似,特别是一些非科学研究者和小孩子。而把这种看似
幼稚的观察结果与古生物学和地质学的知识结合起来,从而创立《大陆漂移学说》 ,就算是
气象学家的韦格纳,也给人一种“外行人想法”的感觉。与此同时, 《地球板块移动学说》
则是从实践出发而上升到一个新的理论高度, 靠的是地球物理学中缜密、 专业的观察与理论。
海岸线长度不一致
通过互联网我们可以查出,日本海岸线的总长度是 34 000 km。但这个数字准确吗?是怎么
测量出来的呢?取出一份日本地图,用细线沿着海岸线描,绕一圈所需要的细线的长度再乘
以地图的比例尺就能够得到海岸线的实际距离。这种做法想必大家都知道,但是大都没有自
己尝试过这样做吧。
但有人却这么做过,他就是 IBM 沃森研究所的研究员,B 曼得勃罗博士。但奇怪的是,即第 4 页 共 56 页
使是同一个出版社的地图,测量出的结果也不一样。比例尺越大(更详细的、放大更多的)
的地图得到的长度越长。到底什么样的结果是正确的呢?
这个时候,如果谁一副万事通的样子解释说: “比例尺小的地图会省略细小的海岸线凸凹,
所以得出的长度当然短啦! ”然后,自己也恍然大悟“原来是这样啊” ,如果大家都接受这样
解释的话,那就没有曼得勃罗博士的发明了。
曼得勃罗博士将一定比例尺的海岸线凸凹放大, 发现它是由相同形状但比例缩小的凸凹反复
重叠而成的。打个比方说吧,将东京湾的海岸线放大,发现它是由各个形状类似于东京湾的
横滨港、东京港、千叶港、木更津港等的海岸线组成的。而横滨港也是一样,由更小的相似
图形反复重叠组成的。像这种性质叫做自我相似(物体是由本身自我相似的几何物所构成
的) 。而自我相似图形是没有特定长度的。
曼得勃罗博士把具有自我相似性质的图形(原本是数学研究的对象)命名为分形,从而创建
出一个精妙的数学理论。现在,分形在以计算机图形学为首的各种领域里得到广泛应用,是
一种非常重要的理论。
分形的发明,有赖于曼得勃罗博士对自己的实验充满坚定的自信。但最后的实现并不能靠单
纯的观察,而是靠更高级的专业知识。
在研究的过程中如果没有数学这个专业工具是绝对不可能成功的。
内容宽泛的理论
麻省理工学院(MIT)的 M 明斯基教授是 MIT人工智能研究所的创始人,并且长期担任所
长一职, 是人工智能研究的象征性人物。 明斯基教授博学多才, 学数学出身却在神经生理学、
计算理论学、心理学、物理学、电气工程学、机器人等众多领域有着很深造诣。他不仅在人
工智能方面,而且在计算机的大部分领域都有着极大的影响。当然也曾获得过图灵奖。他最
著名的成就是 20 世纪 70 年代初期发表的,有关于智能的一般说明性的框架理论。
在这里没有必要赘述该理论的详细内容。但我想要说明的是,这个理论不仅应用在人工智能
方面的研究,而且对于对象语言、代理等当今各种计算机的新技术及其发展,都产生了重大
的影响。
明斯基教授在人的心理现象、神经回路构造、计算理论方面都有很深的造诣,所以他利用广
博的知识,列举了很多例子与事实来说明其框架理论的正确性,的确具有很强的说服力。但
是,仅就研究的问题来讲,这个理论与前面所述的分形不同,不是由严谨的数学理论所构成
的,不能否认它多少有点含糊的成分。
那是 20 世纪80 年代的事情, 有一次我参加一个会议的时候, 与明斯基教授和一个卡耐基 梅
隆大学的研究生共进早餐。美国的研究学者有一个特征,就是在饭桌上也不会停止讨论研究
课题。那次也不例外。
席间,明斯基教授说: “有人说框架理论含糊,可自从我发表了这个理论以来,在自然语言
解析领域里已经产生了 200 多篇使用框架的研究方法得出的博士论文, 这些成果怎么没有人第 5 页 共 56 页
说呢。 ”而后,那个研究生就问: “明斯基教授,可不可能以后发现了某种新的现象会证明您
的框架理论不正确啊?”像明斯基教授这样的大师与一个研究生边吃早餐、边面对面讨论问
题的情景,也就是在美国才很容易碰到。明斯基教授兴奋地回答: “绝不可能!为什么这么
说呢,因为框架理论中包含了神经生理学、计算理论学、数学、心理学等等目前所知道的理
论。并且,这个理论足够含糊,无论是什么新的现象都可以包括进来的。 ”
我当然没有见过韦格纳,但曼得勃罗博士和明斯基教授的话都是直接听他们本人说的。想必
以后在说明这些理论的时候,为了使其精髓简单易懂,这些话会演变成例子或逸事。当然这
其中可能会有编造和夸张的部分了。
但是,我们可以清楚地看到,这些科学家在思考问题的时候是多么单纯与天真啊!
第三节 跳出现有的成功
作为一个研究人员,我的座右铭是“像外行一样思考,像专家一样实践” 。为此还拜托一位
书法家挥毫泼墨写了这几个字并挂在屋子里做装饰。 我认为研究与开发的有效方式就是要像
一个没有专业背景的外行人一样去发挥自己的思考方式,想出点子、创意,然后像专家一样
缜密地将其实现。
但作为一个专家,要想他跳出自己的知识领域和以往成功的经验往往是非常困难的。
身为专家要有舍弃固有思想、大胆创新的魄力与勇气
对于外行人来说, 因为没有相关的知识和经验, 所以不会束缚于固有的观念, 可以大胆想像。
他们一切构想的根源都是“我想要这样” ,而并不是“能不能实现呢” 。他们都抱着一种“能
实现”的积极的态度。
而称为专家的人早就形成了一种“像这种场合,应该这么做”的固定思考模式。就算没形成,
也很容易被困在通常的做法中,很难产生飞跃式的想法。因此,某些已经存在的、成功了的
方法、经验和知识是导致想像力匮乏、缺少创意的主要因素。
发明现代计算机原型(可编程的计算机)的天才冯 诺依曼,在别人为其展示编译语言
FORTRAN 的构想时候, 他还说: “除了利用机器语言编程之外, 为什么还需要别的语言呢” 。
有的学生编写了将汇编语言转化为机器语言的程序,并使其在诺依曼的计算机上运行。诺依
曼便对他们发火道: “在计算机上运行这种连平常办公人员都能做的东西,这根本就是徒劳
嘛! ”由此看来,专家的思维方式似乎有些可怕。
在此我不希望给大家造成一种误解, 以为一定要由非专业人士和专家两类人组成的团队去解
决一件事情。虽说现实中也可能有人用这种方式来组建团队,但我要说的是,无论是个人还
是团队,思考的时候要像外行人一样无所顾忌地思考,而实践的时候要像专家一样缜密地实
践。在推动研究前进的时候,自己要同时肩负起“想”和“做”的两种职能,不分开进行是
行不通的。
所以,有时候为达到某种目标,就不得不放弃已经构建起来的体系。而作为一个专业人士,
是否能达到目标,是否能实现构想,这其中的关键就是舍弃固有思想,具备大胆创新的魄力
与勇气。 第 6 页 共 56 页
无论是谁都会很容易想到: “从成功中学习” , “从失败中学习” 。而实际上“跳出现有的成功”
往往是最难做到的。
要勇于反对别人的意见
前文中曾经提到过麻省理工学院的明斯基教授经常给人感觉是与众不同的, 其实他是一个说
话很直白的人。
有一次,我跟他一起做采访,我问道: “明斯基教授,您总是能在各种领域中想出很多引人
入胜且能够引导新方向的构思。请问您的诀窍是什么呢?”他回答说: “这个很简单,只要
反对大家所说的就可以了。大家都认同的好想法基本上都不太令人满意。 ”
这话听起来的确是一针见血的见解,其实也正是如此。
哥伦布在大家都向东航行到达印度的时候, 反而选择向西航行, 最终抵达并发现了美洲大陆。
在大家都降低二极管中的不纯物浓度,以制造出更好的二极管的时候,江崎玲於奈博士却增
加不纯物的浓度,从而最终发明了隧道二极管。
我虽然没有像他们这样了不起的发现和发明,但也有与此类似的经验。以前,用于各种产业
的机器人的胳膊都是通过齿轮与发动机相连而获得动力的。其中的齿轮,是一个很麻烦的部
件。因为有摩擦,所以会有喀哒喀哒的噪音(称做齿隙游移) ,而且其中的润滑油还会随温
度变化而发生性质的改变,因此想要做出既快速又能够进行准确预测的模型的确非常困难。
机械技术专家们都在研究怎样制造出更好的齿轮。
20 世纪 80 年代的初期,在卡耐基 梅隆大学,我与当时京都大学的助教、现任麻省理工学
院的教授浅田春比古博士一起,突然想到一个观点——与其这样,那就试试把齿轮全部都卸
掉吧。于是将齿轮全部拆掉,终于制造出将发动机直接植入关节内的机器人。这就是世界上
最早的直接驱动型机械手。
由于除去了复杂的齿轮装置,因此可以按照牛顿公式记录机器人的运动情况。使用这个简单
模型制造出的机器人,其运动速度比以往的机器人快十倍以上。于是我每次都对别人都说:
“机械手是按牛顿先生的预测来工作的机器人。 ”
本书后面所讲述的“虚拟现实”技术和有关使用多个照相机的立体声理论,是我与当时佳能
公司派来的研修生、现在东京工业大学的教授奥富正敏一起思考得出的。大家都知道所谓的
立体声精度,是基线(两个照相机之间的距离)越长精度越高,我们说的与这个常识相反,
使用多个短基线的立体声会得到更好的效果。
在日常生活中,与炒股的人聊天,他会告诉你买跌不买涨才是炒股的正确办法。
这样看来,明斯基教授的“反对大家的想法” ,的确是正中要点啊!
没有抓住未来
给大家讲一个绝好的例子, 这个例子说得是由于对目前的成功深信不疑, 反而没有抓住成功。 第 7 页 共 56 页
据说发明 “一人拥有一台个人电脑” 这个概念并将其实现的是位于加利福尼亚州的施乐公司。
帕罗尔多施乐公司的帕罗尔多研究所,于 1973 年开始设计开发,在 20 世纪 70 年代后半期
就已经成功完成了名叫 Alto 的个人电脑。之后,出现并创造 PC 时代的 Macintosh(苹果公
司于 1984 年推出的一种系列 PC)的功能及图标等概念,则完全包含了 Alto,已经可以说是
一个更加高级的电脑系统的雏形了(还有的历史学家说 Macintosh 就是仿造 Alto) 。
然而,在计算机产业的大名中,我们听到过 IBM、苹果、微软、索尼、东芝,但从没见过
施乐的名字。这是为什么呢?与其说施乐公司错过了 Alto 的发明,还不如说是其根本没有
重视 Alto 的发明。
施乐公司通过复印机租赁业务(每拷贝一张复印件收取一定的手续费)取得了商业上的巨大
成功,获得了高额利润。它并不愿在意味着 PC 时代的 Alto上冒新的商业风险。
施乐公司复印机业务的商业模式是这样的,如果用户拷贝得越快、拷贝数量越大,则它们所
获得的收入就越多。所以它们就十分重视大型的高速复印机,正是这样,忽视了所有办公室
的潜在需求,也就是“少量、便携、现场就可以复印” 。结果呢,市场被理光、佳能这些企
业的小型复印机所迅速取代,施乐公司慢慢失去了市场。即使是采用了严格管理的商业模式
运作,取得了巨大成功的施乐公司,也许正是因为成就太大,也不能让他跳出现有的成功,
的确是难上加难啊。
施乐公司在技术上做到了“像外行一样思考,像专家一样实践” ,但在其商业运作上却没有
能够抛弃专家的思考方式,于是错过了在微型计算机方面唾手可得的成功,不能不说是种遗
憾。
在 D 斯密斯与 R 亚历山大所著的《Fumbling The Future(探索未来) 》中,对这其间的经过
有详细的分析,里面记载着一则 1979 年施乐公司的电视广告。
这个电视广告的情节大概是这样的,一个名叫比尔的主人公早上起床后,对着 PC 说: “早
上好,今天会有什么邮件呢?” 。这可能就是历史的讽刺吧! “比尔”正是施乐公司错过的,
而后在 PC 时代称雄的微软公司总裁、世界首富盖茨的名字。
第四节 创新从省略开始
记得我有一次在与象棋名将羽生善治交谈的时候,他说: “创造就是省略。 ” “一个棋局大概
会有 100 种可能的下法,而棋手都是根据感觉选择了两三种下法。其余的下法 90%以上都
是没有想就舍弃了。这就是省略了思考。然后可以选择的下法就开始多了。如果针对三种下
法,每种有三手可以应付,其结果就是九种,这样不断分支下去,就可能需要考虑三四百手
的下法。要决定使用其中哪一个分支来下,以人的能力是没有办法预料的,所以只有在一定
程度上省略思考,决定这一步怎么下。 ” ( 《简单的、单纯的思考》PHP 研究所)
如果数量达到“阿佛加德罗数” ,则计算机也不能全部检查
有人在计算机上运行象棋等棋类游戏。可能有人会想,现在的计算机运行速度这么快,把所
有可能的下法一个不漏地检索一遍多好啊。我在这里要顺便说一下,在象棋 9′9 的棋盘上,第 8 页 共 56 页
可能的下法会有多少种呢?据查会有 10 的 30次方种(1 后面有 30 个0这样的数字) 。
在学校,我们曾学过“阿佛加德罗数” ,其解释是说在零摄氏度、一个标准大气压的条件下,
22.4 立方米气体(如果是水的话,则在相同条件下是 18 立方厘米)当中,含有的分子个数
为 6′10 的 23 次方。这样的话,10 的 30 次方就是这个数字的 200 万倍,刚好是 3 万立方
米的水中含有的分子个数。
无论计算机运行速度有多快,如果可能性总数达到“阿佛加德罗数”级,对于这样需要计算
的问题,无论从计算量讲,还是从内存容量讲,要进行全部的运算是不可能的。
那么羽生先生怎么样决定这一步棋该怎么下呢?根据他说的, 面对一个棋局的时候, 估计 “大
概就是这步棋,这么下吧” 。似乎从全局来看就可以知道“这局面漂亮”或者“这局面有点
糟糕” 。不知为什么,人类就非常擅长发现这种模式。
简单、省略、抽象化——“理所当然”的悬崖与审美感
实际上我们研究者所做的研究也是从省略开始的。
在我们进行研究的时候,如果直接从复杂的现实开始思考,是无法顺利进展的。如果将发生
的事情简单、省略、抽象化后再看,就会清晰很多,这是科学与工学的基本要求。
问题简单化的程度不够就会因为太难而不容易形成理论。一般来说,越简单化、抽象化就会
产生越绝妙、越鲜明的理论。但是,这个简单化应该恰好与目的是相一致的、适当程度的简
单。只有这样对形成理论才会有帮助。我们以前在物理课上学到的镜片弯曲度与力的关系等
等,像这些简单的绝妙的理论,是思考现实中不存在的、理想化而得出的理论。
实际上,除了工学设计理论之外,就连物理学的法则,与其说是发现,还不如说是发明。对
于牛顿定律,有人也这么说: “神也是遵循着牛顿定律让世间万物运动的” 。而我觉得,它恰
好解释了我们日常所见的各种运动现象。为什么说是“日常” ,因为有证据表明,在量子力
学的世界里,牛顿定律不一定能够成立。能否将想到的问题简单化,是成功与失败的差别所
在。成功的人会向简单的方向迈进,而失败的人只会担心“变得这么简单了能行吗” ,却不
肯迈出一步。
理论越是适用于简单、抽象的问题,越具有价值。但是如果一味地向简单的方向前进,就会
遇到“理所当然”的悬崖。也就是说,到了一种状态:如果再向前一步,就落入“理所当然”
的悬崖,这时候,事情的状况明显就应该是那样的,是理所当然的,但不能形成理论。这表
明了以最简单易懂的状态完成的理论,会是最优秀的理论。
省略思考过程,将问题简单到最合适的程度,这些是需要有预见能力的。拥有了这种预见能
力什么事情都会一目了然。一般人们都会认为数学是由严密的理论所构成的学科,但获得过
有数学界的诺贝尔奖之称的 Fields 数学奖的小平邦彦教授却说,数学是一门高度感性的学
科,这种感觉叫做“数感” 。举个简单的例子,中学时候学几何,有关于图形的问题,要是
不在头脑中画出辅助线就很难解答。这靠的就是预见能力。
我觉得羽生先生所说的下棋时候的“漂亮的棋局”的感觉,正是这种预见的能力。我认为科第 9 页 共 56 页
学和工学都是门艺术。平日,我经常对学生讲: “磨炼你们对事情的审美感。 ”人们经常以为
现实世界的现象和事实没有什么构造可言。但是,在别人都认为没有的地方看到构造,这就
是创意。
省略到什么程度是关键
我们在研究开发新系统的过程中,可以想到的解决方法有很多种。比如,在开发机器人自动
运输系统的时候, “使用普通的摄像机吗?使用几个?” “激光、 立体声、 微波感应器怎么办?”
“怎样区分人与车?” “避开障碍物的行走路线的方法是什么?”有很多这种问题。在此之
中还有相当多的选择, “首先试试这个吧。 ” “就用那个吧! ” “使用这个装置吧” “不行,相比
较而言,还是用这个更便宜” ,等等。
所有这些并不是要同时去做, 需要决定在这些问题当中, 应该从哪个开始。 就像下象棋一样,
要决定这一步怎么下。这就要像羽生先生说的,首先,应从省略开始。
从省略开始,也正是要决定省略到什么程度才能得到成果。提供资金研究的赞助商在意的是
“无论怎么说,成果是最重要的。 ”可以说,研究就是与自然之间智慧的较量,无论怎么样
说,只有胜出的一方才是好样的。所以在通往目标的道路上,胜利的关键就是决定省略到什
么程度,从而能够很好地进行下去,是攻还是守,首先应采取什么行动是最重要的。
而项目领导的主要工作,就是给出行动方针。如果遵照项目领导的行动方针就能提高成功率
的话,则更说明了那个人能够很好地理解领导给出的行动方针。
当我接受研究请求的时候,决定“是否能做到” , “需要多长时间多少费用能完成”等这些事
情,只有凭自己的直觉。虽然也有不清楚的时候,但也要给别人回复。于是我只能先简略地
回答“嗯,这个应该能行吧” , “那个可能有点困难” , “大概,这个程度的话需要五年时间,
有这些费用也就差不多能完成了” 。我还算是估计得差不多,基本上都对了。
如果仅仅拘泥于细小的部分,就不可能做出省略,结果就是没办法向前迈出一步,什么时候
都得不到理想的结果。
第五节 用情景推动研究发展
有一件令我感到非常自豪的事情,那是 2001 年1 月28 日,电视台在转播超级碗(职业美式
橄榄球联赛冠军争夺战)比赛时使用了一个新的现场直播的系统。当时,世界上约有五亿人
在电视机前收看了那场比赛。在那个系统使用了一个名叫“eye vision(幻影) ”的机器人摄
像的技术,它是受在世界上拥有广泛电视网络的 CBS公司的委托,由我和我的团队开发的。
在超级碗的转播中露面的惟一一个大学教授
我还记得关于那次超级碗的转播,当天,比赛前,我得到了 25 秒的时间对“eye vision”的
新技术进行解释。以后,我就带上了“在超级碗的电视转播中出场的惟一一个大学教授”的
帽子。令人感到有趣的是,在美国这样重承诺的国家,我在超级碗转播上露面 25秒的事情,
竟然成了 CBS和卡耐基 梅隆大学开发合同中的一项内容。
下面说明一下“eye vision”的构造,是和电影《骇客帝国》中有同样效果的系统。电影中,第 10 页 共 56 页
在演员真实的表演周围放置一百台左右的摄像机,然后等到合适的瞬间同时按下快门,制作
成照片,然后把那些照片按照顺序制作成影像。对于看电影的人来说,就好像时间停止了一
样, 就像电影中的那样, 在人的周围同时飞起来。 我们的目的就是在球场上做出同样的效果。
但是,运动场场地宽广,我们不太清楚在哪拍摄效果会比较好,也不能确定安放摄像机的地
方,所以,我们在球场上方设置了 30台机器摄像机来覆盖整个球场,并由场外的 CBS转播
车进行自动控制。
转播车中设有带有监视画面的类似移动摄像机的装置,并与场内的 30 台机器人摄像机全部
连接。当该装置做出移动镜头或者变焦的操作时,计算机同时进行运算,输出相应的拍摄画
面。所以,转播车中的摄影师根据拍摄的位置,对运动场内的摄像机可以自由地选择,从而
得到最理想的拍摄位置。那种感觉,简直就像操纵着摄像机在球场中追着选手和橄榄球。计
算机会快速自动计算,控制那些其余的机器人摄像机,完全和手动摄像一样对选手或球进行
跟踪拍摄。30 台摄像机把拍摄的全部照片以数字信号传送到转播车中,然后对每个摄像机
拍摄的画面进行编辑,可以 360°全方位地再现选手和球的移动状况。
如果使用“eye vision” ,在拍摄的过程中,有些引人注目的瞬间镜头就好像电影《骇客帝国》
中的效果一样被重现。例如,在四分位投球的那个瞬间,不仅是横向的拍摄角度,而且摄像
机旋转,面对出手投球人的方向也进行拍摄。对于是否触底得分的微妙情况,我们可以停止
时间,自由地将视点变换 360°,可以一目了然并做出裁决。
那次“eye vision”在超级碗中所体现出的效果得到了大家很高的评价。这项技术现在也应
用在体育转播中,有投资公司想把这项技术投放市场,结果它的股价在两周内翻了六倍。以
后的事情我就不知道了……
虚拟现实——其实,很久以前就在做相关的研究
在我看来,像电影和电视等现在的视觉媒体,都有着共通的一面。当需要把现实中的景色拍
成影像呈现出来的时候,决定如何呈现这个画面的人只有一个,就是导演。而观众是当然不
可能选择观看角度的。
但通过结合三维画像处理技术与计算机图像技术,则完全可以取消这种限制。实际上,早在
这个被叫做“虚拟现实”的“eye version”之前,我就开始研究使用多个摄像机的新技术了。
卡耐基 梅隆大学已经有了虚拟工作室,在像教室那么大的房间内,在四周的墙壁和天花板
上安装了 50 台摄像机,将房间的中央环绕起来。每一个摄像机和相邻连接的摄像机组成立
体的结构,然后这些立体摄像机就可以对所要拍摄的情景进行拍摄了。
如果在房间里开一个舞会的话,我们可以从 50 个角度拍摄,计算机会对各个拍摄瞬间的三
维数据进行处理,然后,将屋子内发生的动作都作为数据流传入计算机。我们把它称为对它
进行四维的数字化、虚拟化。就是我们经常说的虚拟现实,这样看来其实虚拟现实本身还是
现实的,只不过是将现实中发生的事情虚拟化了而已。
如果我们可以对现实世界虚拟化, 那么我们便可以做很多的事情了。 例如, 对于视听者来说,
如果可以安装能够指定虚拟摄像机位置的软件,就可以自由地在虚拟世界里移动,甚至可以第 11 页 共 56 页
合成、观察从平时很难拍摄到的位置和角度拍摄出的图像。
在虚拟工作室曾经记录了有名的外科医生所进行外科手术的过程, 学生可以从任意角度进行
观察和学习。不仅如此,还可以应用于自然动物园及自然环境的污染,等等。Eye vision 只
是其中一个极其简单的例子而已。
做有意义的研究
经常有学生对我说: “我要做能让人感到震惊、 有所触动的研究。 因为这才是有意义的研究。 ”
相反的,有些人说: “虽然我不知道研究的到底是什么,但我终究解决了个难题。 ”这样可能
很酷,但却对人没有什么参考价值,那就没有意义了。
虚拟化现实可能会催生出一种全新的娱乐媒体。这样那些 NBA和百老汇的狂热爱好者,就
可以选择自己喜欢的座位欣赏了。要是能实时进行虚拟化处理的话,甚至可以随着选手和演
员的移动而变换座位,或者将整个场景放在大衣中,或者从篮球的视角观看比赛,这些都不
是不可能的。
我的这个构想,以“多摄像机系统”为亮点,引领了世界上很多类似的项目。它能供别人参
考,这让我十分自豪。
我们研究某一课题的时候经常会想一句口号,这句口号不仅要能表达研究的主要目的,还要
是推动研究向前发展的动力。 我的虚拟化现实项目的口号就是: “Let’ s watch the NBA on the
court” (在现场观看 NBA吧) 。
第六节 情景的关键,是对人类和社会有何作用
说起研究的关键,是要使研究成果对社会有意义。 “我的想法是这样的,发展出这样的产品,
可以对社会起到这样的作用” ,把这一点表现出来是非常重要的。
做得很好的人和做不好的人的区别
做得很好的人和做不好的人到底有什么不同呢?
我总认为,做得很好的人,应该在开始研究之前,就做好了充足的准备和计划,而且目的明
确, 清楚完成研究可以对社会做出什么样的贡献。 在对别人讲解之前, 就应该想好这些问题,
理清研究脉络。 “请看这个,它产生了这样的结果。 ”这样组织语言和段落,才能让人感到舒
心。要像推理小说一样设置各个步骤,以做到完备。
首先让人了解其难度: “要实现这样的事很难吧?”
然后继续解说“你注意到这个了吧,实际上这与刚才的困难是有关系的,采用这个办法就能
解决了。那样每天可以省很多工夫。 ”
听见的人则会露出赞赏的表情“是嘛!这样啊! ”如果跟先前预料的一样的话,研究就差不
多成功了。 第 12 页 共 56 页
情景要通过提前构思进行描述
在我经常使用的语句中,有一个是“研究与应用的情景” ,是我从切身体会中得到的经验。
为了制作电影和戏剧的情节,先要构思好场景的顺序,简单地描述,登场人物的台词还有动
作等,公演的时候必须给观众留下不错的印象。而对于我们研究开发,也要事先考虑一下是
否能够实现,当然也有很难实现的地方。如果用新的想法和工具的话,以现在的经验看可以
实现吗?像这样,要对研究提前描绘一个蓝图。蓝图及其条理逻辑的描述,就是研究开发情
节的一部分。
我前面提过开始思考关于虚拟现实是在 1992 年。1993 年,开始研究的时候,先是使用 6 台
摄像机做立体系统, 到1994年得使用50台摄像机才能做出直径为3m的三维穹顶画面系统。
虽然摄像机价格已经有所下降,但是这个系统造价还是太贵了,以致受到批判: “使用这么
多的摄像机不现实啊。只有像金出(本书的作者)这样可以使用很多研究资金的人才能有这
种做法。 ”
但我想,摄像机很快就会变得更小更便宜,花很少的钱就可以使用了。
那个时候,向计算机输入数字画面,不管是容量,速度都不可能像现在这样简单、便宜。说
起 50 台确实是很多,但没有办法只好买了 50 台 VTR,先录制模拟画面,然后再一个一个
地数字化。演讲的时候,在说到“买了 50 台 VTR”的时候,会场的人们都笑了起来。
要是到了现在,像使用很多摄像机这种事情算不了什么。摄像机已经格外便宜。使用很多摄
像机的这种应用越来越普及。 现在, 斯坦福大学正在研究开发可以使用 200 台摄像机的系统。
此刻,我对自己推动了这一系统的研究感到非常自豪。
不要认为没有用的研究才算高级
在我看来,对情节描述的基本能力是对未来的预见能力。
在美国,不仅仅是研究者,很多人都有一种观点——“想做得有意义” 。当对别人说起自己
的研究的时候,先会这样问“这个能用在什么地方呢?” “用什么样的结构呢?” ,等等,然
而如果对这样的问题没有明确的答案, 听众渐渐失去兴趣, 最后可能没有人会做你的听众了。
我对于有意义还要强调一点,有人会说: “您的意思是要我们做应用性的研究?”也有人会
说“我是搞基础研究的,有没有意义我不清楚” 。不仅是美国,日本这样的人也很多。说这
样话的人,不能描述情节,因此可能更不会区分其目的和手段了。
如果说我做的都是有意义的研究, 那不意味着只停留在应用研究层次很没水平吗?如果
展开阅读全文