10月8號,禮拜一上午九點,中海理工大綜合實驗大樓自然語言識別研究所。
和煦的陽光穿過紗窗照射在檀木色辦公桌說,留下一塊塊明暗交替的光斑,戴著老花鏡的唐天華教授正手持鋼筆修改材料。
就在這時,辦公室門被人“咚咚咚”的敲響了。
“進來。”
門“咔噠”一聲被人從外面擰開,唐教授下意識看過去,等見到進來的人后,那張不茍言笑的臉上卻是露出了笑容。
進來的人自然便是陳序了,走到辦公桌前面有些局促的喊道:“老師好!”
唐教授笑著伸手示意了一下說:“坐下說。”
陳序走到墻根便的實木椅旁坐下。
唐教授挪動了一下身體,靠在椅背上慈眉善目的笑問道:“怎么樣,有沒有決定好研究方向?”
說實話,唐教授也對陳序的功課進行了一番了解,在看到那些連優秀都稱不上的成績單時,心里是有些動搖的,想著是不是再觀察觀察?
不過那篇讓他為之驚艷的論文時,所有疑慮都打消了。
這是一個在自然語言處理方面非常有天賦的年輕人,他打算好好培養一番。
陳序撓撓頭說:“呃……詞法與句法分析。”
聽到陳序的選擇,唐教授皺了皺眉頭。
從那篇自然語言處理的前瞻里就能看出來,這是一個有著勃勃野心的年輕人,他想挑戰當今世界自然語言處理中最核心的難題也在情理之中。
不過嘛……
唐教授說:“你要想清楚了,一旦選錯方向,可能會走上很多彎路,浪費時間浪費精力,你確定要選擇詞法與句法分析?”
面前唐教授勸解的話語,陳序堅定的點點頭,“我確定。”
燕京HD區中關村科學院南路6號,這里是“中國計算機協會”的總部,同時也是國內最頂尖的計算機期刊計算機科學技術學報、英文名JCST的辦公地點。
上午9點,劉成林教授來到協會處理一些公務。
劉成林不僅是中國計算機協會的副會長、JSCT國內總負責人、國內語音識別方面的權威教授,同時也是青木大學的博導。
10點半,劉成林在處理完國慶期間積壓下來的公務后,來到自己辦公室稍作休息,等下便準備下樓吃午飯。
走到辦公桌前瞄了眼案頭,果然又是厚厚一摞的論文稿子。
對此劉成林已經習慣了。
現在人工智能是計算機熱門專業,而語音識別又是熱門里的熱門,全國那么多高校,可以想象從事相關方面研究的人何其多?
他作為這方面的權威專家教授,每天要收到很多幫忙審稿的請托。都是一些學術界同仁好友的學生后輩之類的。
趁著吃午飯前的片刻功夫,劉成林想看看這些論文里有沒有什么新穎的思路。
拿起第一份,題目是Development of Multi-Person Speech Recognition Software for Mobile Phone Based on Android System(基于Android系統的手機多人語音識別軟件開發)。
翻開隨便看了看,沒有新意,沒有亮點,對現有語音識別技術的提升沒有任何幫助,唯一值得肯定的就是還算嚴密的算法結構。
劉成林搖搖頭,把這篇論文放到了一邊,拿起下一本,Speech Recognition Based on Deep Learning and Its Application(基于深度學習的語音識別及其應用研究)
順手翻開看了看,還不如上一篇呢,都是一些炒冷飯的東西,甚至連語言表述都有些顛三倒四,不知道這樣的論文怎么就敢拿給他審閱的。
“這都是些什么人啊!”劉成林有些生氣,順手把論文扔到辦公桌上。
想了想他又拿起論文看了看第二作者,發現是在一個國際學術會議上認識的國內某二流大學教授。
劉成林搖搖頭,拿起紅筆在論文上面畫了個×,然后又在×外面畫了個圈,表示退稿并且不再接收。
平息了一下心情,劉成林伸手從案頭上又拿了份論文。
讓他沒想到的是,這份論文竟然非常厚,粗略估測起碼有一百頁。
“嚯~好家伙。”劉成林托起論文湊到眼前看了看題目,終于不再是“基于某某某”了,而是自然語言處理的前瞻。
“喲,口氣不小嘛!”
看到這個題目,劉成林和唐天華的反應差不多,第一時間就想笑,再加上這么厚厚一摞,他懷疑這個作者怕不是把論文當小說寫了吧。
看了眼論文題目后面的作者名,第一作者不認識,第二作者名字叫唐天華。
劉成林楞了一下才想起來唐天華是誰。
雙方是在國內的一次專家會議上認識的,印象中這個唐天華在語言識別方面頗有建樹,算是少見的實干型人才。
不過對唐天華的好印象,并不能改變劉成林連翻開論文看一眼的欲望都沒有的心情。
勉強翻開第一頁。
摘要:在確定國際自然語言處理領域使用頻率最高的97個關鍵詞的基礎上,運用共詞分析法,以SPSS數據分析軟件為工具,通過因子分析和聚類分析的方法,并借鑒最新研究成果,探討國際自然語言處理現狀以及未來發展 四平八穩的開頭雖然沒有讓劉成林有眼前一亮的感覺,但也對對方接下來的所要論述的內容產生的好奇感,想看看對方到底怎么“編”?
不過劉成林的想法很快便消失了。
這個論文作者不僅沒有“編”,而且一切都在用國際最權威的數據說話。
從自然語言處理中的最基本也是最重要的詞法、語法、語義開始說起,層層推進,步步為營,用最簡單、最樸實無華的語句來告訴讀者,什么是詞法、語法、語義分析?
現在國際最頂級的大咖研究到了哪里?
他們遇到了哪些問題?
如果你要從事這方面的研究,你應該從何入手?
看完第一段之后,劉成林有些驚嘆。
這個作者的論文思路清晰、語句通順、層次分明,觀點表達精確,敘述風格已經到了返璞歸真的地步了,他已經很久很久沒有看到過這樣精彩的科普性論文了。
更重要的是,對方在自然語言處理方面,有著扎實的基礎,這是一般人做不到的。
劉成林忍不住合起論文看了眼名字:陳序。
然后劉成林翻開論文繼續朝下面看……
從綜合實驗大樓回來后,陳序便忙碌了起來。
把市面上有關于詞法、語法、語義分析方面書籍統統收集回來,然后逐一錄入到小白的資料庫當中。
小白是強大,不需要告訴它什么是分詞,詞性,詞的顆粒度,詞所在語句的位置,同義詞,轉意詞等等等等。
但是,未來基于自然語言處理開發出來的翻譯軟件/機器,那是要投入到商業應用當中去的,不可能讓小白充當智腦來翻譯,這也不現實。
所以還是要攻克自然語言處理當中的難題。
比如,怎么樣才能讓機器理解人類基于情感式的、模糊的語義表達?
這需要小白在當今自然語言處理的研究基礎上,不停的進行推演,破解掉詞法、語法、語義分析的終極密碼。
到時候再進行句法分析、篇章分析、建立語言認知模型等等,會易如反掌,整個自然語言處理中的難題會如同多米諾骨牌一樣轟然倒地。
而他作為小白的“人生導師”,需要引領小白朝某這個方向努力前進,就像之前不停地填充寫作素材庫一樣。
另外,未來軟件開發出來,他要作為“開發者”和來自世界各地的專家學者進行交流的,如果連技術的基本原理都不懂,那也太不像話了。
所以在小白學習的同時,陳序也從人工智能方面的科普性書籍讀起,目的是為了幫助小白更好的成長……