第4部分(第3/4 頁)
越多,反而越不知道該怎麼下手了。”呂振羽說。
“這樣說吧,從語言學的角度要解決這個識別的問題,這個大家都明白,我也參與過一個叫‘言語的產生、識別與編碼’的專案。目前,所有的機器識別,都是基於字詞和語音的,語法是一個從屬的地位,因為漢語的語法和其他語種區別太大了,規律性並不明顯,雖然按照西方的語法正規化,能夠總結出現代漢語使用的大部分規律,但是這並不足夠。字詞的語音識別,產生的素材,被語法模組排列組合起來。而標點符號,機器自己是無法新增的,因為沒有斷句的功能。這也就是基於語音的機器語言學。”
“那又沒有什麼解決方法呢?”呂振羽問。
“索緒爾在《普通語言學教程》裡有一句話,聲音脫離了書寫符號,就只是一些模模糊糊的概念。但又有另外一句話,文字越是不表示它所應該表現的語言,人們把它當作基礎的傾向就越是增強。……這兩句話有同一個核心,那就是文字,而位於文字兩邊的則是語音和語義。我想,現在主要的瓶頸在於,語言的識別智慧停留在語音到文字的階段,而從文字到語義,則需要一個人自己去進行操作。語義是一個很複雜的東西,憑著你現在掌握的這個人工智慧,你肯定可以做出能比較好的理解語義,從而對文字進行修正的軟體,你剛才也說了,你的這個造句程式,缺乏的就是常識層面的東西。如果加上這一塊,對於語音辨識的判讀是不是就完整了呢?也不是,因為這個常識本身就是有彈性的東西,很多不合乎常識的表達方式平時我們一直在用,你說那是修辭手法也可以,但我們平時都是能理解的,為什麼?因為我們使用語言,無論文字形式還是語音形式,都是基於一個基本的使用環境,也就是所謂的語用。在語用的前提下,語義才會完整。”方治強的說法已經非常非常淺顯,大部分的概念都沒有解釋,但中文的強大適應性也從這些名詞上體現了出來,不需要解釋,相信呂振羽也能夠理解大致的含義,而在這個局面下,大致理解也就足夠了。
呂振羽回味著方治強的話,反反覆覆地想著,突然說:“那是不是說,如果這樣一個引擎能基於語義學和語用學來進行開,然後結合語音識別現有的成果,就能夠比較完善了?”
方治強讚賞地說:“說得對,只要你能做到。這並不容易。但只要你能將語用和語義的層面形成程式,語音方面的問題就是小問題了,什麼語音流變什麼的根本不用太當回事。”
第一卷 神說,要有光 9.最容易破解的難題
方治強知道,自己提出的這個方法是一個相對而言正確的方法。在語音識別方面,純粹基於語音與結構語法的識別方式或許比較適用於英語法語德語之類的語言,因為那些語種的語法結構一直都是比較完善的,有一個經過數百年反覆研究的語言研究成果為基礎,比較容易進行語音識別方面的數字化。而中文則不是,中文的體系太複雜了文言文與現代漢語之間的斷裂遠遠比英語中古英語與現代英語的區別來得劇烈。而日常使用中,哪怕是再現代的人,也會不自覺地使用一些古文中的字詞句乃至語法,中學生在學古文的過程中最頭痛的倒置,在日常使用中比比皆是,要怎麼樣才能建立一個相對完整的語法結構,才能匹配起語音識別後的處理呢?而從語義和語用出,以智慧程式為核心,以常識判斷為依託,應該可以解決漢語的機器識別的問題。但是,這同樣是一個幾乎不可能完成的任務。語義和語用,並不是可以簡單地體系化的內容,而是一個有固有規律可循,卻千變萬化的系統。全中國不知道有多少研究語義與語用的語言學家,那麼多年來似乎也沒什麼大成果,那麼,呂振羽是不是能做出自己的成果來?雖說,隨著大學體制的變更,那些語言學家裡大多數都是糊弄著寫論文混資歷的人,但基礎知識卻還是很紮實的,而呂振羽在這方面可以說是一無所知,僅僅憑著基本市面上容易找到的語言學教程,無論如何是不夠的。
方治強說:“小呂,你給我個地址,回頭我給你送一些資料過去。”
“嗯,那就謝謝伯父了。”
又聊了一會,呂振羽就急著告辭了。方治強的方法對於其他人來說或許是個大難題,而對於現在已經有了小羽的呂振羽來說,算不上什麼大問題。小羽的智慧,已經完全能理解比較複雜的語言環境了,語義和語用的判斷對於小羽來說不是什麼大問題,而掛在網上連續泡魔獸的經歷,則讓小羽學到了很多現代漢語中比較特別的表達方式,尤其是在年輕人中間比較流行的一些語言。按照方治強的說法,呂振羽要做的就是將語音
本章未完,點選下一頁繼續。