這兩天翻開我20年前關(guān)于漢語短語結(jié)構(gòu)文法的博士論文,重讀一遍,有些感慨。 我的博士做得比較辛苦,其中的曲折和坎坷,不足道也?傊,做實(shí)驗(yàn)做了很多現(xiàn)象,舍不得放棄,可博士論文要求有一條主線,講究的是點(diǎn)入。不知道草稿了多少提綱,一律被導(dǎo)師忽視或槍斃,最后是不斷舍棄,不斷聚焦,千錘百煉,才打造出這么個(gè)棱角全部被磨圓了所謂博士論文。感覺上,多數(shù)的博士論文都是這種過分打磨,讀起來了無趣味的文字,在下的更是如此。但里面包含多少不眠之夜的掙扎、艱辛和血淚,天知地知也。 其實(shí),所謂PhD哲學(xué)博士是一個(gè)歷史遺留下來的錯(cuò)誤稱號,當(dāng)代的博士基本都是專才,一點(diǎn)也不“博”,很少通才。很多年的辛苦研究基本是掘地三尺的勁頭,重精不重廣,除了自己的一畝三分地,其他領(lǐng)域無知得很,哲學(xué)就更談不上了。北美的博士制度耗費(fèi)了人一生中最有創(chuàng)造力的時(shí)期,長達(dá)5-8年,感覺是太超過了。見過很多博士磨圓了銳氣,了無成就,面對真實(shí)市場手足失措的案例。難怪俗話有說,傻得像博士。這里的得失留給教育學(xué)家研究點(diǎn)評吧。 話說我終于一邊工作,一邊完成了定稿,導(dǎo)師也首肯了。那時(shí)甜甜剛四歲。
I should thank my four-year-old daughter, Tian Tian. I feel sorry for not being able to spend more time with her. What has supported me all these years is the idea that some day she will understand that as a first-generation immigrant, her dad has managed to overcome various challenges in order to create a better environment for her to grow.
PhD Thesis Dedication
To my daughter Tian Tian
whose babbling accompanied and inspired the writing of this work I still remember I was in tears when writing this to give a final touch on this degree thesis
現(xiàn)如在正在做中文 deep parser,已經(jīng)很有規(guī)模了。正好回顧一下,看 20 年前的思路與20年后做法,有何不同。離校后開始工業(yè)開發(fā)至今,我毫不猶豫就拋棄了博士的自動(dòng)分析的路線,雖然做博士時(shí)說得頭頭是道。實(shí)際是揚(yáng)棄吧。有拋棄有繼承。拋棄的是單層的CFG,繼承的是詞法句法的無縫連接。這個(gè)轉(zhuǎn)變反映的是理論和實(shí)踐的距離以及學(xué)術(shù)與工業(yè)的關(guān)系。 做博士的時(shí)候,正是 unification systems 最被熱捧的時(shí)候。于是跟隨導(dǎo)師,在 Prolog
平臺上用 HPSG 做了一個(gè)漢語文法的MT雙向?qū)嶒?yàn)(同一個(gè)漢語文法被用來同時(shí)做分析與生成,支持漢語英語的雙向機(jī)器翻譯),做了個(gè) toy。需要寫論文了,不得不把做過的各種現(xiàn)象不斷縮小,最后集中到漢語的詞法(包括切詞)和句法的接口上做文章。整篇論文論述的就是一個(gè)思想,切詞、詞法與句法必須一體化,用的是單層 CFG parsing,說得頭頭是道。 一體化理論上當(dāng)然是成立的,因?yàn)檎Z言現(xiàn)象中的相互依賴,只有在一體化的框架下才好對付。哪怕 90% 的現(xiàn)象不是相互依賴的,是可以摘開的,你總可以用 10% 的現(xiàn)象證明一體化的正確性(理論上不妨礙那 90%)。 20年后呢,去球吧。早拋棄了單層一體化的思路,那是一個(gè)死胡同,做 toy 可以,很難 scale up,也做不深入,做不了真實(shí)世界的系統(tǒng)。繼承的是一體化的通信管道和休眠喚醒似的patching機(jī)制。但寧肯修修補(bǔ)補(bǔ),也不追求語法體系的完美。 決定把當(dāng)年在博士論文中列舉的具有句法分析難點(diǎn)的例子,當(dāng)作 unit test 都 parse 一遍,看變了設(shè)計(jì)思想的系統(tǒng)是不是還可以抓住這些語言現(xiàn)象。 “頭羊”(類似案例還有“個(gè)人”、“難過”)帶有所謂切詞的 hidden ambiguity,因?yàn)橹苯舆`反 longest principle,是中文切詞的痛點(diǎn),也是一體化的有力證據(jù)。理論上,任何的切詞 ambiguity (不僅僅是 hidden ambiguity)都需要帶入整個(gè)句子才能最后確認(rèn),local context 永遠(yuǎn)有漏洞,你永遠(yuǎn)可以營造出一個(gè) context 使得你的 local 決策失效。但實(shí)踐中還是可以大體把 local 與 全局分開,沒必要帶著切詞的 ambiguity 一路跑到終點(diǎn)。hidden ambiguity 不影響大局者可以休眠,如上例。必要的時(shí)候可以用 word-driven 的句法后模塊再喚醒它 。
心路歷程:當(dāng)理論遭遇實(shí)踐、博士走向工業(yè) |