close

大家好,今天和各位談談“吳軍硅谷來信”專欄裡的一篇文章心得。

今天要分享的電腦領域大人物是佛朗茲·奧科。他的名氣顯然是沒有前面兩位大師那麼大,但是他做出了改變世界的產品。奧科博士幾乎以一人之力,將全世界機器翻譯的水準,提高了1倍。在他之前,世界上的機器翻譯系統基本上是無法使用的;在他之後,機器翻譯不僅成為可用的產品,並且在世界普及。

90年代末期,全世界已經研究了快50年的機器翻譯領域,但是依然沒有什麼進展。當時,主流的機器翻譯,依然採用讓電腦模仿人學外語的方式,進行翻譯工作。雖然一開始,幾百條的規則就能覆蓋一半的英、法、德語現象;但是,要再提升10%的覆蓋率,可不是增加10%的規則就可以,而是需要增加10倍。

在當時,世界上最進步的翻譯公司SYSTRAN,編寫2萬多條語法規則,仍然有20%的英語的語言現象無法覆蓋。更麻煩的是,如果要每種語言都寫一次,工程耗時費工。這種機器翻譯方式,被稱為基於規則的方法。

到了90年代,賈里尼克在IBM的下屬彼得布朗設計出,以數學模型加資料的方法,翻譯自然語言的框架。這種方法被稱為基於統計的機器翻譯,因為這需要用到統計,而統計需要用到資料,因此,也被稱為資料驅動的方法。由於當時的資料量很少,所以成效不顯著。以至於布朗的論文,在當時的被引用率並不高。

後來,布朗離開IBM,到世界上最厲害的對沖基金公司-文藝復興技術公司,擔任IT副總裁。這家公司成員沒有一位是財經背景出身,但是投資回報率比巴菲特還高。布朗是機器翻譯領域採用統計方法的第一人,只可惜他只開了個頭而已。

基於統計的機器翻譯方法,能夠有今日的水準,主要是靠奧科博士的貢獻。1999年,他運用大量的資料,加上一系列能夠把統計數學模型,訓練得更精準的方法,讓基於統計的方法超越基於規則的方法。他運用的模型就是現在大家常聽到的“機器學習”。2000年前後,他研發的中英翻譯系統能做大約20%的翻譯和人一致;英文和阿拉伯文的翻譯有30%的一致性。

你可能會覺得2030%看起來很低,但是人類語言專家翻釋的一致也只有接近50%左右,並不是100%。所以,這樣的數值,其實已經接近人類的水準了。這樣的成果,讓全世界的科學家看到了希望。

2001年奧科博士畢業後到南加大任教。吳軍老師也在同時畢業進入Google2003Google決定開發機器翻譯軟體。在研究了半年後,發現非常難以突破。於是,建議公司把當時世界上最好的機器翻譯專家-奧科博士,從大學裡請來。2004年奧科博士終於被說服加入Google。當時的Google的規模,只有2,000人左右,並不算大,而且沒有太多機器翻譯的經驗。和IBM等公司相比,有一大段差距。

當時Google為了爭取奧科博士加入,答應了3個條件:

1、他加入後,機器翻譯小組由他負責。

2、當時Google即將宣布IPO2004.04.28),而奧科博士必須要到8月才能完成南加大的教學工作。為此,Google答應讓他在宣布IPO那天到職,接著請4個月的假。

3、他能隨意使用公司全部的資料,公司還請最優秀的工程師迪恩等人,為他提供雲計算方面的技術支援,以方便他使用巨量的計算資源。

在奧科博士到職後,Google兌現了全部的承諾。

在奧科博士加入半年後,Google參加美國國家標準與技術研究院(NIST)主辦的對全世界機器翻譯系統的評測。在這之前,IBM已經在這領域發展了幾十年,沒人認為Google是認真的。評測結果出來,Google在中英、阿英的互譯都獲得第1名。第2名和它的差距是10年的水準。

值得一提的是,在Google和在南加大系統都是奧科博士寫的,但為什麼系統差距如此巨大?當時的學術界都非常好奇。奧科博士提出解釋,原來他在Google沒時間改進方法,但用了比之前多1萬倍的資料。他向全世界證實了,當資料量千、萬倍增加後,就會由量變形成質變。在這之後,大數據逐漸成為熱門的話題。

奧科博士不懂中文,也不會阿拉伯文,他研究機器翻譯的方法,和人本能的方法完全不一樣。他證明了,機器翻譯的問題,從根本上來說,都是數學問題,和語言水準沒有太大的關係。10年之後,GoogleDeepMind小組向世界證明,下圍棋也是數學問題;在AlphaGo的團隊裡,幾乎沒有會下圍棋的人,但並不妨礙它打敗李世石和柯潔。

既然都是數學問題,既然能夠中英、阿英互譯,那麼,能夠用這種方法翻譯其他語言嗎?當然是可以的。在之後2年裡,奧科博士的團隊就開發出8種語言間的近50種語言對的互譯。這也體現出資料驅動方法的好處。

世界上有上千種語言,Google支援的語言有近百種。要讓近百種的語言互譯,大約有1萬種語言對,就算是用資料驅動的方法,也要極長的時間研發。為了解決這個問題,奧科博士想到一個便捷的方法-選定幾種中間語言,將所有語言都翻譯成這些中間語言,再經由中間語言翻譯成各種需要的語言。依照這個方式,Google實現了40種語言之間的互譯。

2012年吳軍老師再次回鍋Google,奧科博士告訴他已經不再從事人類語言翻譯的研究。因為他認為這個問題已經基本解決,要再提高品質只是資料量的問題。他接下一個非常有挑戰性的研究-將人類語言翻譯成電腦語言。只要人們清楚描述自己的需求,電腦就能編寫程式。到了2014年,奧科博士已經能讓電腦編寫簡單的程式,這也大大降低了人類使用人工智慧的門檻。

2014年,吳軍老師離開Google從事投資工作。奧科博士也離開Google到人類長壽公司擔任首席科學家。基於對奧科博士的支持,吳軍老師的基金投資了這家公司,並且獲得極高的收益。2年後,胡貝爾創立聖杯公司(Grail)從事癌症早期檢測。奧科博士受胡貝爾的邀請,加入該公司擔任首席科學家;同樣地,吳軍老師也投資了聖杯公司,同樣獲得極高的收益。最近聖杯公司的亞洲分公司即將在香港IPO。在奧科博士看來,生物和醫療問題,也是數學問題。他利用大數據資料進行個性化製藥和癌症的早期檢測。

總結奧科博士成功的經驗:

一、他是堅定地相信,能將各種問題轉化成數學問題,並且在許多領域取得驚人的成就。

二、他在機器翻譯歷史上,是劃時代的人物,可說是這個領域貢獻最大的科學家。他並沒有侷限自己只待在語言互譯的領域中;他還能夠一通百通地初步實現了電腦自動程式設計,並且把機器學習擴展到生物製藥和醫療保健領域。

本日思考題:奧科博士的故事,有哪些值得你借鑒的呢?

歡迎你的留言,和我一起分享、一起討論,我們下次見。

arrow
arrow

    Jay Yeh 發表在 痞客邦 留言(0) 人氣()