亚州av综合色区无码一区,午夜一区二区三区亚洲影院电影网,天堂а√在线地址,性人久久网av,无码内射成人免费喷射

曉木蟲
學術(shù)數(shù)據(jù)庫客戶端

心路歷程:當理論遭遇實踐、博士走向工業(yè)

 找回密碼
 注冊新賬號

QQ登录

微信登录

心路歷程:當理論遭遇實踐、博士走向工業(yè)

跳轉(zhuǎn)到指定樓層
這兩天翻開我20年前關于漢語短語結(jié)構(gòu)文法的博士論文,重讀一遍,有些感慨。
我的博士做得比較辛苦,其中的曲折和坎坷,不足道也?傊,做實驗做了很多現(xiàn)象,舍不得放棄,可博士論文要求有一條主線,講究的是點入。不知道草稿了多少提綱,一律被導師忽視或槍斃,最后是不斷舍棄,不斷聚焦,千錘百煉,才打造出這么個棱角全部被磨圓了所謂博士論文。感覺上,多數(shù)的博士論文都是這種過分打磨,讀起來了無趣味的文字,在下的更是如此。但里面包含多少不眠之夜的掙扎、艱辛和血淚,天知地知也。
其實,所謂PhD哲學博士是一個歷史遺留下來的錯誤稱號,當代的博士基本都是專才,一點也不“博”,很少通才。很多年的辛苦研究基本是掘地三尺的勁頭,重精不重廣,除了自己的一畝三分地,其他領域無知得很,哲學就更談不上了。北美的博士制度耗費了人一生中最有創(chuàng)造力的時期,長達5-8年,感覺是太超過了。見過很多博士磨圓了銳氣,了無成就,面對真實市場手足失措的案例。難怪俗話有說,傻得像博士。這里的得失留給教育學家研究點評吧。
話說我終于一邊工作,一邊完成了定稿,導師也首肯了。那時甜甜剛四歲。

I should thank my four-year-old daughter, Tian Tian. I feel sorry for not being able to spend more time with her. What has supported me all these years is the idea that some day she will understand that as a first-generation immigrant, her dad has managed to overcome various challenges in order to create a better environment for her to grow.
PhD Thesis Dedication
To my daughter Tian Tian
whose babbling accompanied and inspired the writing of this work
I still remember I was in tears when writing this to give a final touch on this degree thesis

現(xiàn)如在正在做中文 deep parser,已經(jīng)很有規(guī)模了。正好回顧一下,看 20 年前的思路與20年后做法,有何不同。離校后開始工業(yè)開發(fā)至今,我毫不猶豫就拋棄了博士的自動分析的路線,雖然做博士時說得頭頭是道。實際是揚棄吧。有拋棄有繼承。拋棄的是單層的CFG,繼承的是詞法句法的無縫連接。這個轉(zhuǎn)變反映的是理論和實踐的距離以及學術(shù)與工業(yè)的關系。
做博士的時候,正是 unification systems 最被熱捧的時候。于是跟隨導師,在 Prolog
平臺上用 HPSG 做了一個漢語文法的MT雙向?qū)嶒灒ㄍ粋漢語文法被用來同時做分析與生成,支持漢語英語的雙向機器翻譯),做了個 toy。需要寫論文了,不得不把做過的各種現(xiàn)象不斷縮小,最后集中到漢語的詞法(包括切詞)和句法的接口上做文章。整篇論文論述的就是一個思想,切詞、詞法與句法必須一體化,用的是單層 CFG parsing,說得頭頭是道。
一體化理論上當然是成立的,因為語言現(xiàn)象中的相互依賴,只有在一體化的框架下才好對付。哪怕 90% 的現(xiàn)象不是相互依賴的,是可以摘開的,你總可以用 10% 的現(xiàn)象證明一體化的正確性(理論上不妨礙那 90%)。
20年后呢,去球吧。早拋棄了單層一體化的思路,那是一個死胡同,做 toy 可以,很難 scale up,也做不深入,做不了真實世界的系統(tǒng)。繼承的是一體化的通信管道和休眠喚醒似的patching機制。但寧肯修修補補,也不追求語法體系的完美。
決定把當年在博士論文中列舉的具有句法分析難點的例子,當作 unit test 都  parse  一遍,看變了設計思想的系統(tǒng)是不是還可以抓住這些語言現(xiàn)象。
“頭羊”(類似案例還有“個人”、“難過”)帶有所謂切詞的 hidden ambiguity,因為直接違反 longest principle,是中文切詞的痛點,也是一體化的有力證據(jù)。理論上,任何的切詞 ambiguity (不僅僅是 hidden ambiguity)都需要帶入整個句子才能最后確認,local context 永遠有漏洞,你永遠可以營造出一個 context 使得你的 local 決策失效。但實踐中還是可以大體把 local 與 全局分開,沒必要帶著切詞的 ambiguity 一路跑到終點。hidden ambiguity 不影響大局者可以休眠,如上例。必要的時候可以用 word-driven 的句法后模塊再喚醒它 。

心路歷程:當理論遭遇實踐、博士走向工業(yè)
論壇有你更精彩!
大家都不容易!
謝謝您的分享!
大家都不容易!
好東西一定要看看!
謝謝您的分享!
論壇有你更精彩!
大家都不容易!
謝謝您的分享!
大家都不容易!
論壇有你更精彩!
謝謝您的分享!
論壇有你更精彩!
好東西一定要看看!
您需要登錄后才可以回帖 登錄 | 注冊新賬號

本版積分規(guī)則  | 请遵守晓木虫管理条例,不得违反国家法律法规

返回頂部