我知道的百度王海峰
2019-06-08 10:37:38
  • 0
  • 0
  • 0

王海峰

文/左林大叔

来源:左林右狸(ID:Left-Right-007)

蹭母校99岁生日,大叔今天八一八百度新任CTO,也是哈工大计算机系杰出校友王海峰。

左林大叔知道王海峰应该是四分之一个世纪之前的时候了,那时,左林大叔在哈工大读计算机,王海峰比大叔高四届,同一个系,按理高四届是老死不相往来,这原因有二:

原因一是,大叔那一级有不少哈三中的同学,很多地方的大学和当地的重点中学都有着微妙的共生共荣,川大和成都七中、哈三中与哈工大等等,王海峰是哈三中进的哈工大,是大叔那些哈三中的同学里嘴里经常提到的传奇人物。还有一个人被大叔的哈三中同学一直提及至今的是李健同学,哪个李健?就是从哈三中去清华,然后吟唱《贝加尔湖畔》的歌者李健。

原因二是,大叔的辅导员程晓明老师也是89级哈工大计算机系的,程晓明老师是312的班长,而王海峰是322的班长,321的班长则是刘挺,刘挺班上的团支书云晓春现在是院士候选人,已经进入了第二轮,学习委员叫杜跃进,哪个杜跃进,曾经是体制里最懂网络安全现在去了阿里的学术派杜跃进杜博士。

杜跃进

王海峰在哈工大就读期间名声斐然,很大程度在于他的勤奋和乐于助人,有个关于王海峰的段子广为流传。

王海峰是1993年读的硕士研究生,他读硕士研究生的前两年,互联网虽然开始接入,但还是不够普及,王海峰就木事往北京跑,每次一跑就是一个礼拜。在北京的这个礼拜天天跑北京的国家图书馆,在图书管里找各种文献,然后复印,当时复印一页A4纸是2毛钱,王海峰一印就印几千页,每次光复印费就上千块。

图片来自哈工大官微

那时也木有什么便捷的邮寄服务,于是每次,王海峰都要背一个满满都是复印资料的旅行袋坐20+小时的火车吭哧吭哧从北京回到哈尔滨(那时木有高铁),背到后来,旅行袋的背带都背折了。而每次王海峰从北京一回来,就是整个实验室里最欢乐的日子,几乎全系这个方向的青年老师和研究生都过来找王海峰,看资料,聊见闻,讨论问题,交流心得,很是热闹。

王海峰在哈工大硕士博士就读期间一共有三个导师,这三个导师和其背后累积的渊源都代表着哈工大在中国人工智能细分领域的一方成就和行业领先地位。

王海峰硕士导师是李生,李生是哈工大计算机系的老系主任,也是哈工大乃至中国人工智能领域第一个博士生候选人(最后因为在提副教授和读博士之间二选一选择前者木有读成博士,中国人工智能领域第一个博士生花落张大鹏教授,安利下,张大鹏教授也是我们 CCF-GAIR2019 的讲者)。

李生(右)&左林大叔

当时李生还木有当哈工大党委书记,但已经是哈工大党委副书记,当时李生机器翻译实验室里帮助李生打理日常业务的是邱祥辉,邱祥辉后来去了深圳,在哈工大深圳圈子里鼎鼎大名。

李生实验室里当打主力是哈工大子弟兵赵铁军,之所以说赵铁军是哈工大子弟兵是因为他是哈工大计算机系教授吴纯园的儿子,赵铁军之所以木有跟着父亲姓吴是因为吴纯园在年轻的时候参加革命地下工作,隐姓埋名,所以儿子一开始姓赵。王海峰在本科毕业设计期间就跟着赵铁军写代码,当时赵铁军搞了一套机器翻译的系统,王海峰帮着做实现,王海峰从小就是写程序的高手。

王海峰高中时代使用的电脑

李生、赵铁军是哈工大NLP(自然语言处理)两支中的一支,另一支则是王开铸、王晓龙、刘挺这一支。王开铸30年代生人,比李生长十来岁,也是哈工大计算机系的老主任,他的开山大弟子是王晓龙,王晓龙的得意门生王轩如今是哈工大深圳计算机学院的院长。

王晓龙是智能拼音输入法的作者和构架提出者,王轩是该输入法的主力开发,智能拼音输入法1995年被微软看中后,基于此成为PC上流行一时的微软拼音输入法,大学里输入法做到这份上,前无古人。王开铸的关门弟子是刘挺,是公认的横跨NLP产学研的中青年业界领袖。

赵铁军

在大叔看来,中国的NLP学术研究领域有诸多值得尊敬的老先生,诸如马希文先生以及他的北大继任者俞士汶,再比如清华大学的黄昌宁,山西大学的刘开瑛,东北大学的姚天顺以及中科院的高庆狮、冯志伟,李生是与他们并举的学术大家,李生后来当选中文信息学会理事长、获得ACL终身成就奖都是其江湖地位的彰显。

王海峰的第二位导师是洪家荣,即便对很多学计算机的人来说,洪家荣的名字也有些陌生,但洪是中国在机器学习领域最早取得国际性声誉的计算机科学家,围绕决策树归纳学习算法领域在国际顶级会议上发表多篇论文。天妒英才,洪家荣1997年2月抱病辞世。辞世前,他出版了《归纳学习:算法理论应用》一书。

洪家荣当时有个学生叫丁明峰,洪家荣最重要的一篇文章《一种新的决策树归纳学习算法》丁明峰就是第二作者,可惜因为弟弟交通事故家里经济出现问题,1987年哈工大本科入学的丁明峰在1996年放弃读博士加入中兴,最高曾位居中兴母公司总裁,如今的丁明峰转做投资,创办合创资本。继承洪家荣衣钵的是今天哈工大人工智能研究院的院长王亚东,也是当年洪家荣出殡时的抬棺人。

丁明峰

在雷锋网合伙人、《中国人工智能简史》作者之一岑峰看来,洪家荣的扩张矩阵理论给了王海峰不少灵感。

洪家荣在机器学习的代表作是基于示例的学习算法AQ15,示例学习也称为概念获取,在80年代,知识获取已被公认为专家系统发展的瓶颈问题,示例学习也获得更加广泛的重视。除了AQ15外,当时示例学习在国际上最有影响的算法还有奎林(J.R.Quillian)提出的ID3,奎林同时还是语义网络模型的提出者,对自然语言理解有着长足的影响。扩张矩阵可以用矩阵的方法做知识表示,经过变换后可以将文字串转化成神经网络可以训练的参数,从而解决这一问题。

王海峰还有一位导师是高文,王海峰的本科毕业设计是跟着赵铁军做的,硕士期间,他参与了863306的机器翻译项目,王海峰自己写了一套系统,并在863的测评中拿了个第一名和部级科技进步奖。

应该是1996年,高文开始担任863306项目组的首席专家。做863首席专家有个不成文的规定,就是首席专家必须在北京,高文也从哈工大进京入驻中科院计算所。

中科院计算所

计算所当时最大最火的是李国杰主持的智能中心,智能中心与摩托罗拉合作了一个实验室,高文落脚计算所的第一站就是这个实验室,王海峰在这里做了一年,回校后仍继续接受高文的指导。

高文在2018CCF-GAIR大会上

从本科到硕士到博士,王海峰一直都是在做机器翻译,所不同的是,本科的时候负责做实现,硕士的时候自己写了一套系统,到博士的时候,王海峰不希望自己止步不前,而是希望能用新方法做机器翻译。

中科院计算所是国家队,网络条件更是一等一的好,王海峰充分查阅这个领域的全球最新研究成果,直到看到神经网络的相关文献,他顿时有醍醐灌顶的感觉,决定用神经网络做一套机器翻译系统。

和王海峰一直琢磨用神经网络做研究的还有一个同时读博士的,这个人叫徐波,哪个徐波,就是现在中科院自动化所所长徐波。只是两个人应用场景不一样,一个用在语言上,一个用在语音上,后来和王海峰精诚合作的贾磊,是徐波的博士生,这个世界不大。

徐波

神经网络在视觉、语音上用起来要相对更通畅一些,但自然语言处理要难不少,王海峰最后甚至是围绕一串文字串不断做神经网络递进。

另一个问题是,虽然解决了NLP的参数化问题,但在网络结构上还需要进一步调整。当时主流的网络是BP网络,而语言是有上下文的,纯粹的BP网络搞不定上下文问题。后来王海峰就琢磨在网络结构上怎么变成一个RNN加上一个循环层链接回来反映上下文关系,效果还不错。相关结果他写在了自己的博士论文里,这在当时即便放在国际上也属于比较超前的思想。

博士毕业后,李生和高文都想留王海峰,但王海峰选择放弃留校,他想去企业看一看,于是在1999年3月加入微软中国研究院。整个微软中国研究院当时也就刚刚开始建设,也就是10人出头。

王海峰清晰记得他是NLP组的第二名到岗者,在此之前的是刚从东京大学回来,后来回沈阳航空航天大学的蔡东风,王海峰的大师兄也就是中国NLP领域第一个博士生周明得半年后才从日本回来。

王海峰的另外两位哈工大博士生同学刘挺、荀恩东也比他晚到(刘挺是先留校再到微软中国研究院的,王海峰则是木有留校直接去微软中国研究院的)。微软中国研究院NLP的第一任主管黄昌宁也在4月份报到,黄昌宁此时刚从清华退休,今天清华大学计算机系的党委书记孙茂松教授以及周明都是黄昌宁的学生。

微软中国研究院所在的希格玛大厦

王海峰去找开复,问自己做什么,对谁汇报。开复说,没别人,我来带你吧。开复老师是做语音的,其成名作就是做语音识别,李开复教王海峰咋做语言模型,咋用统计的方式做验证。王海峰清晰记得,在知春路希格玛大厦李开复的办公室里,李开复手把手教王海峰推公式,王海峰每次都记满满一大篇,然后回去消化,边学边做。

王海峰在微软中国研究院期间发第一篇顶会论文也不是投的ACL,这很大原因是因为开复老师是混语音圈子的。王海峰这篇论文的合作者是当时同在微软中国研究院的高剑锋,高剑锋也是IEEE2019的新晋Fellow。王海峰和高剑锋合作的这篇论文也是微软中国研究院的第一篇论文,因此,李开复花的功夫不少,还亲笔改,王海峰前年在家翻了一下,还找到当年李开复亲笔改的稿子,复印了一份发给李开复。

李开复

王海峰在微软中国研究院呆的时间不长,也就一年出头,但在这一年多里,王海峰从NLP领域进入了搜索这个新领域,当时负责搜索这个组的leader是张宏江,当时的组员还有文继荣,文继荣后来回了人大,他呆的时间比王海峰长很多年,在微软中国研究院期间做了微软学术搜索人立方等产品。很快,杨强也加入微软中国研究院。哪个杨强,就是今天IJCAI的理事会主席,中国人工智能领域最具国际影响力的中国学者。

不过,搜索这个项目在微软中国研究院没有做多久就叫停了(微软在2000年4月停掉搜索是微软过去20年来最大的战略失误,这其中故事多多,我们择机单扒,邻里们也可以点击阅读原文,到我们的知识星球与我们互动),王海峰也由此离开了微软中国研究院,但与搜索的缘分就此结下。王海峰自嘲自己是中国最早做搜索的那一波人,在他做搜索的时候,百度也刚刚起步。

高剑锋

搜索做了两三年后,王海峰又把自己的重心转回到NLP上,2012年3月,他加入了东芝中国的研究院。

王海峰真正在学术上取得超高成就是其在东芝中国研究院担任首席研究员的那五六年期间。王海峰不是最早在ACL这样的顶会上发表论文的人(不过也属于最早的一批学者),但有项中国学者中的记录应该是他保持的:2006年ACL年会,他一人中了5篇文章。

王海峰与ACL社群结缘是因为一个香港科大的叫吴德恺的教授,吴德恺也是NLP研究的大牛,其成就是“较早将中文分词方法用于英文词组的分割,并且将英文词组和中文词在机器翻译时对应起来”,也就是ITG模型。

吴军在《数学之美》一书中中文分词研究史的章节里提到了两个人,一个是清华的孙茂松,另一个就是吴德恺。王海峰离开微软中国研究院后跟着吴德恺去了香港,有一段短暂创业的经历。吴德恺是ACL历史上领域第一位华人Fellow,有一年ACL在香港开会,吴德恺是组委会主席,王海峰因此被拉进组委会,并由此进入ACL社群这个大家庭里。

吴德恺

王海峰还保留了一项与ACL有关的记录,那就是从2004年起,连续15年深度参加参与ACL学会,而且基本每年都有文章发表或深度参与组织。

王海峰也是ACL历史上第一位华人主席,这个时候王海峰已经到了百度。王海峰进百度是因为看到百度要做框计算,隐约觉得自己会有英雄用武之地,恰逢此时,也觉得自己在东芝做到头了。王海峰之前也想过去百度,但他觉得框计算之前的百度,更多的是产品运营驱动,需要的更多是写代码的年轻人,而不是他这种有工程实现能力的科学家,这时恰巧百度也在找NLP方向的带头人。

代表百度第一个面试王海峰的是王梦秋,之后百度负责大搜索业务的副总裁,百度内部著名的铁娘子,也是百度的早期创业员工。已经单飞创办清流资本的王梦秋也与左林大叔回忆起她当时对王海峰的两点印象:一是聪明,一点就透;二是对技术有足够的热忱。这两点让王梦秋当场就认定王海峰会是百度要的那个人。

更重要的是,王海峰自己创过业,在东芝的时候也有从0到1的管理经验,知道怎么去做开拓性的工作。

王梦秋

王海峰进入百度后很快帮助百度一步步搭建起人工智能团队,他本身就是自然语言处理方面的专家。最早,他先把自然语言部门搭建起来,并很快帮助提升百度的搜索结果质量;其次,他找来贾磊,建立起语音部门;自然语言和语音部门后,王海峰的第三枪是图像部门,当时给好几个候选人发了offer,最早响应的是余凯,后来黄畅也来了,余凯和黄畅后来出去创办了地平线,这是后话,按下不表。

王海峰对深度学习的跟进也很早,2011年下半年,他参加了张长水在清华组织的研讨会。

2012年下半年,贾磊领导的语音团队取得了让人惊艳的成绩,百度上下开始有了成立IDL的共识。王海峰是 IDL的早期组建者之一,并在2013年上半年招募了张潼、吴韧等大将。2014年1月,王海峰所领导的团队去了搜索,将AI与搜索业务进行有效的融合和推进。这年5月,吴恩达加入百度。

2016年6月,百度只花了25天就推出了一套全新的信息流产品,这很大程度在于王海峰带领的技术团队训练有素,以及2013年起百度一直在致力推动的平台化策略。2017年3月,结束三年之约的吴恩达离开,王海峰差不多同时间开始整合百度所有AI相关技术团队,组建AIG。

吴恩达

当然还有一点,那就是,自然语言处理、搜索、人工智能这些在底层上是相互融会贯通的,王海峰的这三十年基本都在与这个打交道,特别是百度的这十年,王海峰随着百度的AI体系一步一步往上不断深入、迭代、融合,从这个意义上说,王海峰与百度,百度搜索与AI之间已经相生相长在一起,李彦宏请王海峰做CTO只是时间问题。

附《中国人工智能简史》与王海峰谈哈工大和AI产学研(对话于2019年3月)

《中国人工智能简史》:哈工大对你有多大的影响?

王海峰:哈工大对我影响非常大,我到今天常和我的小伙伴们说起那八个字:规格严格、功夫到家。熟悉我的人都说,这八个字不仅体现在我的生活中,我的生活也符合这八个字,这是烙在我血液里、灵魂深处的行为准则。我在哈工大呆了九年半,近十年的时间,人生第一个十年与哈工大在一起,哈工大教会我怎么去认知这个世界。

《中国人工智能简史》:哈工大哪位老师你印象最深刻?

王海峰:李仲荣。我们新生刚入学的时候,李仲荣给我们在新楼101那个大教室做报告,他跟我们讲他是怎么给航天、给国家做项目的,讲得我们一个个热血沸腾的,像打了鸡血似的。我印象特别深,国之所托的那种荣誉感,很鼓舞人心,现在回想起来还是很激动。今天想想,那真的很难,都是前辈们一点一点给做起来的,后来遇到很多事情,我都不会慌,比起这些前人,我们做的事情没有那么难。

还有陈光熙(左林右狸频道注:陈光熙先生是哈工大计算机系的开创者、第一任系主任,也做过哈工大的副校长)。陈老先生也给我们上过课,但陈老先生年岁有些大了,和我们有些远,李仲荣对我们的影响是直接的,是巨大的。李老师走得有些早,他要是不那么早走的话,当院士一点问题都没有,哈工大计算机应用的博士点是他开创的,他也是中国最早做人工智能研究的几个学者之一。很可惜。

《中国人工智能简史》:你读的是李生书记的研究生?

王海峰:我本科入学的时候,李老师是我们的系主任;我研究生进实验室的时候,他已经是党委副书记了;我博士毕业的时候,他是党委书记了。李老师让我很钦佩的是即便行政事务繁忙,他也挤时间做学问,带学生,给我们开会,在方向上给予指导。要兼顾很不容易,这需要很强的综合能力,我从他身上学到很多。到今天,有很多时候,我遇到问题也会请教他,他总能给我们很多指导意见。

《中国人工智能简史》:高文老师对你影响大吗?

王海峰:我记得高老师是1991年回来的,他后来也做了我们的系主任。1991年刚回国那时候,他带我们一门课,我们在那儿上机房,他来机房给我们指导。有问题他就能马上给你建议,按照他的建议一试果然好使,那时候其实印象也挺深的。后来我硕士论文是跟着高老师做的,最后拿了个863测试的第一名。

《中国人工智能简史》:还有哪些老师对你有影响?

王海峰:赵铁军是带我毕业设计的,李晓明给我们上过课,他讲课讲得很好,还有方老师(左林右狸频道注:中国工程院院士方滨兴),他们都和海外有很多交流,都自己在一线干活,能文能武,很厉害,哈工大计算机系那批老师真的很强。还有一批比我们大不了多少的更年轻的老师,我们有更多的技术交流和业务讨论,比如陈熙林、程旭,还有李明树。陈熙林和程旭是同学,他们算老师,但更像是师兄。

《中国人工智能简史》:同学里呢?

王海峰:我本科是班长,研究生后也是班长,研究生里我们很多同学都很优秀,刘挺、云晓春、杜跃进,陈晓明后来留校再读的研究生,他是我们本科一届的,但研究生不一起。还有佟冬(左林右狸频道注:佟冬现为北京大学信息科学技术学院系统结构研究所副教授),他是我们本科、硕士、博士一起的同学,李国东比我们高一级,他和程旭他们一起玩,也和我们一起玩。我们这些同学都很勤奋,都很努力,相互激发,相互促进。那真是一个黄金年代。

《中国人工智能简史》:博士毕业后为什么没有选择留校?

王海峰:李老师希望我留哈尔滨,高老师则希望我能留北京,但我想去工业界看一看,这主要是因为李开复1999年上半年来哈工大做演讲,他和我聊天。那时候我快毕业了,他就跟我聊毕业想干啥,我说我搞了这么多年研究,希望我的东西有用,李开复和我说,那你应该来微软,微软的产品全世界都用。这个打动了我,我想做东西给更多人的用。我就去微软(中国研究院)了。

《中国人工智能简史》:你在学术和产业上的结合做得很好,有什么心得吗?

王海峰:我对研究一直也很执着,也想搞,我好像一直两头都搞。要两全也不容易,但我还是能找到一些点让它结合起来,我做研究也不是说开小差做副业,对公司也有用。做的东西最后还能用,这个路能打通就比较好了。这个真的不容易,不是说听我两句建议就领悟到了,这个还真是挺不容易的。

当然,现在时间久了,这就会变成我的习惯,但开始我还是挺注意拿捏这种尺度,比如说我做研究时,觉得这个问题特别有兴趣,但是还得掂量掂量这东西是不是有用,要没啥用,就是一个纯研究,我可能也就放一放了,这个尺度还是要拿捏的,拿捏多了到后来逐渐地驾轻就熟了,不需要再每天想着去怎么拿捏了。

《中国人工智能简史》:对年轻学子成长有哪些建议?你个人的成长经验有哪些?

王海峰:我估计在百度这些年,到外面的、曾经在我团队里的工程师应该也有规模了,真的很多人培养出来在各处都当技术的顶梁柱。带团队,尤其是工程师的团队,我有三个词:务实、自驱、负责到底,这是基本的要求。技术功底一定要扎实,这个是没什么说的,这是你的基本技能,然后讲文化,要讲务实、自驱、负责到底。

关于成长经验,我其实还会经常跟大家讲另外四个词:体力、精力、意志力和胸怀。我说具备了这四点,你才可能真正发展。这四个词里,要说重要性,都重要。但你要倒着看,要是胸怀不够,稍微有点事就想不开,前面几样是不可能做到的,那身体也不可能好的。没有意志力也坚持不下去。胸怀要好,意志力要好,精力要够,体力要好。

《中国人工智能简史》:学术界和工业界做研究最大的区别是什么?

王海峰:我们在工业界和学术界做的研究有个很大的区别,我拿一些数据做测试跑,有改进,结果一出来,开始写文章,那就结束了。工业界实际上是全流程的,从最早的数据怎么采集清晰,然后去处理,训练模型,模型怎么迭代改进,然后有人用,再反馈出来,全流程。不是你懂一些算法或者掌握一些代码就行的,这个全流程很重要。一个产品最终做得好其实是端到端全流程优化的。

所以,我们提炼一些这样的平台沉淀下来,其实是对产业价值更大的。

谨以此文献给奔向百年华诞的哈工大,致敬那些为中国人工智能产学研投做出过努力、奉献过青春的哈工大人。

 
最新文章
相关阅读