日本色色网,性做久久久久久蜜桃花,欧美日本高清动作片www网站,亚洲网站在线观看

卷起袖子做老師
《李開復自傳》連載
2010-08-20   作者:  來源:經濟參考網
 
    是不是做了院長,就可以不做項目了?我給自己的答案是:不行。其實原因非常簡單——人手不夠。
    當時,研究院確立的研究方向之一是“音字技術組”,也就是教電腦聽話、講話。這個恰好是我的博士論文的內容,但是我早就脫離了這個領域,而且已經多年沒有寫程序。但在研究院,我是唯一懂這方面技術的人,我只有勉為其難地卷起袖子,和我招到的幾位副研究員一起工作。
    邸爍和陳正是清華的高材生,盡管不是學語音的,但是1999年他們進入希格瑪大廈的時候,選擇了語音識別小組。每天,我拿著語音的教科書,從最基礎的知識開始教他們。讀完基礎的課本后,他們開始練習在這個新的領域編程,然后,我再把我的論文拿出來,一章一章地講給他們聽。這兩個年輕人都聰明過人,可以閱讀世界水平的學術論文。另外,他們可以利用微軟的“資源共享”制度,從美國研究院語音負責人那里拿來全套的語音軟件。有了這些技術和源代碼,這就像攀登100層的高樓,兩人一開始就站在了50層。他們倆進步神速,兩年后,都成了項目負責人,如今在不同的公司取得了驕人的成績。
    在他們倆之后,我們組又來了個年輕人——高劍峰。高雖然也是名校(上海交通大學)的博士,但是他的專業(yè)是機械設計,方向是“工業(yè)造型”。因此,他經歷過一段頗為迷茫的時期。
    那一年,我去上海交大招聘,正好遇到了高劍峰,就問他在研究些什么?他興致勃勃地說了他的研究。我當頭潑了他一盆冷水,說,“這個東西在美國早過時了,你還研究什么,還不如到微軟來換個有用的題目呢!睕]想到,他真的來了,闖過了應聘的重重關卡,加入了語音識別小組。
    不過,他馬上感覺到了強大的壓力,邸爍和陳正不斷取得突破,而他連門道都沒摸清楚,有時候遇到一個問題,他還沒有弄明白是怎么回事,人家已經解決了。
    看到高劍峰非?鄲溃议_玩笑地對他說,“你是不是混進來的?”他抬頭看我,表情很窘迫。我笑了笑,對他說,“你不是計算機專業(yè)畢業(yè)的,但是我覺得你還是有潛力的,如果有不懂的問題,我覺得你可以去請教一下組里的同事,畢竟我們是一個團隊,也歡迎你隨時來找我!
    高劍峰點了點頭,就去找邸爍和陳正了。這兩個小伙子一點都不吝嗇,把自己知道的東西都告訴了高劍鋒,一些問題經他們點撥,就輕松化解了。
    在不斷的學習中,高劍峰的信心被慢慢地樹立了起來。他覺得,作研究就像一場長跑比賽,遇到了高手,被人家甩得很遠,不能著急,不能亂了方寸,該怎么跑還是怎么跑。他后來總是告訴新來的研究員不要在意中途的快慢,最后勝出的人,才是真正的勝者。
    高劍峰就這么跟了幾年,先學著跑,再自己跑,漸漸地不再感覺累。到了第四年,他已經是“項目帶頭人”,換句話說,他也是一個“領跑者”了,F(xiàn)在,他已經轉到微軟美國,在那里做資深研究員。
    語音識別不是僅僅把每個字分別識別出來,而是像人一樣,要運用到語言的知識。中文有一個特殊的問題,就是分詞。一個笑話就是“杭州市長春藥店”,人們看到這個店名的時候,自然而然地知道是“杭州市/長春/藥店”。但是僅僅向前推一個字,電腦很可能會識別成為“杭州/市長/春藥店”。
    如何做到正確的識別呢?我告訴陳正:“國內的語音識別往往是先分詞,然后識別。這是徹底的錯誤,因為第一次分詞總可能出錯,一定要同時分詞和識別,經過所有的排列與組合,挑選出最好的結合。”
    然后,我發(fā)現(xiàn)我們的語言模型語料遠遠不夠。語言模型的功能是經過大量的統(tǒng)計,來判斷在下一個位置最可能出現(xiàn)哪些字,比如說,看到“尊敬的李”時,我們可能預測下面會是“先生”、“老師”、“女士”等詞,各有不同的概率。我對他說,“在中國做語音搜索統(tǒng)計,只聯(lián)系到前面的一個詞,但是中文的語言特點是歧義特別多。僅僅依靠向前推一個詞,電腦并不能作出正確的判斷,至少要向前推兩個詞!蔽覀冋堻S昌寧教授去開始一個語料采購的計劃,訓練出這樣推兩個詞的語言模型。
    另外,中文和英文很大的一個差別就是中文有四聲的識別。這方面團隊很快地做了一個四聲識別器,和整體的識別系統(tǒng)結合起來。就像分詞一樣,一定不能先把四聲識別出來,而要考慮所有的可能性,再作出總體最優(yōu)的選擇。
    在他們三人以及后來加入的幾位副研究員的努力下,很快,一個中文語音識別系統(tǒng)就做出來了。
    此后,陳正和我發(fā)現(xiàn)這個系統(tǒng)不但可以做語音識別,也可以做拼音轉換。我們嘗試了一下,果然轉換率比當時任何系統(tǒng)都要高很多。除此之外,我們還發(fā)現(xiàn)可以用統(tǒng)計模型做出一種奇妙的功效——自動糾正人為造成的拼寫錯誤,也就是說,如果你打入:“zunjingdelixansheng”,這個系統(tǒng)可以發(fā)現(xiàn)你少打了一個“i”,而自動轉換成“尊敬的李先生”。后來,這個項目,由陳正做內核的技術,王堅做用戶界面,成為了一個高質量的輸入法。
    在短短的一年內,這個五人團隊就做出了多項傲人的成果:中文的四聲識別、最精確的輸入法、中文的聽寫機,還有多用途的統(tǒng)計語言模型。這些項目都符合了我們“有用”的目標,也用我們的“兵團”模式迅速獲得了成果。
    與此同時,研究院里其他小組,都在為有用的夢想而全力打拼。
  凡標注來源為“經濟參考報”或“經濟參考網”的所有文字、圖片、音視頻稿件,及電子雜志等數字媒體產品,版權均屬新華社經濟參考報社,未經書面授權,不得以任何形式發(fā)表使用。
 
相關新聞:
· 《巴菲特致股東的信》:價值投資者的必讀書 2010-08-13
· 深圳讀書月"全民閱讀網"上線 2010-08-11
· 第六屆江蘇讀書節(jié)在南京開幕 2010-07-20
· 深圳民間讀書會網羅愛書人參與 2010-07-20
· [讀書頻道]《五常學經濟》 2010-07-01
 
頻道精選:
·[財智頻道]天價奇石開價過億元 誰是價格推手?·[財智頻道]存款返現(xiàn)赤裸裸 銀行攬存大戰(zhàn)白熱化
·[思想頻道]壟斷行業(yè)收入分配改革的理論廓清·[思想頻道]中國品牌的追求不能急于求成
·[讀書頻道]《五常學經濟》·[讀書頻道]投資盡可逆向思維 做人恪守道德底線
 
宜阳县| 崇明县| 屏东县| 博白县| 神木县|