- 相關(guān)推薦
手語研究的方向與現(xiàn)狀
摘要:介紹國內(nèi)外手語研究的主要方向及研究現(xiàn)狀,手語識別的各種方法、手語合成的組成部分、手語網(wǎng)絡(luò)通信的實現(xiàn)技術(shù)以及手的運動約束問題。關(guān)鍵詞:人體語言 手語 識別 合成 通信 運動約束
手語是聾啞人使用的語言。它是由手形動作輔之以表情姿勢而構(gòu)成的比較穩(wěn)定的表達系統(tǒng),是一種靠動作/視覺進行交際的特殊語言。
人類交互往往聲情并茂,除了采用自然語言(口語、書面語言)外,人體語言(表情、體勢、手勢)也是人類交互的基本方式之一。與人類交互相比,人機交互就呆板得多,因而研究人體語言理解,即人體語言的感知,及人體語言與自然語言的信息融合對于提高計算機的人類語言理解水平和加強人機接口的可實用性的極有意義的。手語是人體語言的一個非常重要的組成部分,它是包含信息量最多的一種人體語言,它與語言及書面語等自然語言的表達能力相同,因而人機交互方面,手語完全可以作為一種手段,而且具有很強的視覺效果,它生動、形象、直觀。
手語的研究不僅有助于改善和提高聾啞人的生活學(xué)習(xí)和工作條件,為他們供更好的服務(wù)。同時也可以應(yīng)用于計算機輔助啞語教學(xué)、電視節(jié)目雙語播放、虛擬人的研究、電影制作中的特技處理、動畫的制作、醫(yī)療研究、游戲娛樂等諸多方面。另外,手語的研究涉及到教學(xué)、計算機圖形學(xué)、機器人運動學(xué)、醫(yī)學(xué)等多學(xué)科。因此,手語的研究是一個非常有意義的課題。這里將結(jié)合國內(nèi)外手語研究的相關(guān)方向,對手語的識別、手語的合成、手語的網(wǎng)絡(luò)通信、手的運動約束這幾方面作一下綜述。
1 手語的識別
手語的識別不但具有深遠(yuǎn)的研究意義,而且具有廣闊的實際應(yīng)用前景,至少表現(xiàn)在以下幾個方面:(1)能夠使得聾啞人,尤其是使得文件程度比較低的聾啞人,使用手語和正常人交流;(2)從認(rèn)知科學(xué)的角度,研究人的視覺語言理解的機制,提高計算機對人類語言的理解水平;(3)利用手勢控制VR中的智能化;(4)機器人的示范學(xué)習(xí);(5)虛擬現(xiàn)實系統(tǒng)中的多模式接口等。
從手語輸入設(shè)備來看,手語識別系統(tǒng)主要分為基于數(shù)據(jù)手套的識別和基于視覺(圖像)的手語識別系統(tǒng)。基于數(shù)據(jù)手套的手語識別系統(tǒng),是利用數(shù)據(jù)手套和位置跟蹤測量手勢在空間運動的軌跡和時序信息。這種方法的優(yōu)點是系統(tǒng)的識別率高。缺點是打手語的人要穿戴復(fù)雜的數(shù)據(jù)手套和位置跟蹤器,并且輸入設(shè)備比較昂貴。利用數(shù)據(jù)手套等典型傳感設(shè)備的方法,臺灣大學(xué)的Liang等人利用單個VPL數(shù)據(jù)手套作為手語輸入設(shè)備,可識別臺灣手語課本中的250個基本詞條,識別率為90.5%。CMU的Christopher Lee和Xu在1995年完成了一個操縱機器人的手勢控制系統(tǒng)。Kadous用Power Gloves作為手語輸入設(shè)備,識別有95個孤立詞構(gòu)成的詞匯集,正確率為80%;谝曈X的手勢識別是利用攝像機采集手勢信息,并進行識別。該方法的優(yōu)點是輸入設(shè)備比較便宜,但識別率比較底,實時性較差,特別是很難用于大詞匯量的手語錄的識別。在基于視覺的方法方面,具有代表性的研究成果包括:1991年富士通實驗室完成了對46個手語符號的識別工作。Davis和Shah將戴上指間具有高亮標(biāo)記的視覺手套的手勢作為系統(tǒng)的輸入,可識別7種手勢。Starner等在對美國手語中帶有詞性的40個詞匯隨機組成短句子識別率達到99.2%。Grobel和Assam從視頻錄像中是取特征,采用HMM技術(shù)識別262個孤立詞,正確率為91.3%。此外,Vogler與Metaxas將兩種方法結(jié)合用于美國手語識別,交互采用一個位置跟蹤器及三個互相垂直的攝像機作為手勢輸入設(shè)備,完成了53個孤立詞的識別,識別率為89.9%。
從識別技術(shù)來看,以往手語識別系統(tǒng)主要采用基于人工神經(jīng)網(wǎng)絡(luò)(ANN)及基于隱Markov模型(HMM)等方法。神經(jīng)網(wǎng)絡(luò)方法具有分類特性及抗干擾性,然而由于其處理時間序列的能力不強,目前廣泛用于靜態(tài)手勢的識別。著名的Fels的GloveTalk系統(tǒng)采用神經(jīng)網(wǎng)絡(luò)方法作為識別技術(shù)。對于分析區(qū)間內(nèi)的手語信號,通常采取HMM方法進行模型化。HMM是眾周知并廣泛使用的統(tǒng)計方法,一般拓?fù)浣Y(jié)構(gòu)下的HMM具有非常強的描述手語信號的時空變化能力,在動態(tài)手勢識別領(lǐng)域一直占有主導(dǎo)地址,如卡內(nèi)基·梅隆大學(xué)的美國手語識別系統(tǒng)及臺灣大學(xué)的臺灣手語識別系統(tǒng)等均采用HMM作為系統(tǒng)的識別技術(shù)。另外,Grobel與Assam利用HMM識別由戴有色手套的用戶通過攝像機輸入的262個孤立手語詞,正確率為91.3%。然而正是由于HMM拓?fù)浣Y(jié)構(gòu)的一般性,導(dǎo)致這種模型在分析手語信號時過于復(fù)雜,使得HMM訓(xùn)練和識別計算量過大。尤其是在連續(xù)的HMM中,由于需要計算大量的狀態(tài)概率密度,需要估計的參數(shù)個數(shù)較多,使得訓(xùn)練及識別的速度相對較慢。因而以往手語識別系統(tǒng)所采用的HMM一般為離散HMM。
在我國,哈爾濱工業(yè)大學(xué)的吳江琴、高文等給出了ANN與HMM的混合方法作為手語的訓(xùn)練識別方法,以增加識別方法的分類特性和減少模型的估計參數(shù)的個數(shù)。將ANN-HMM混合方法應(yīng)用于有18個傳感器的CyberGlove型號數(shù)據(jù)手套的中國手語識別系統(tǒng)中,孤立詞識別率為90%,簡單語句級識別率為92%。接下來高文等又選取Cyberglove型號數(shù)據(jù)手套作為手語輸入設(shè)備,并采用了DGMM(dynamicGaussianmixturemodel)作為系統(tǒng)的識別技術(shù),即利用一個隨時間變化的具有M個分量的混合GaussianN-元混合密度來模型化手語信號,可識別中國手語字典中274個詞條,識別率為98.2%。與基于HMM的識別系統(tǒng)比較,這種模型的識別精度與HMM模型的識別精度相當(dāng),其訓(xùn)練和識別速度比HMM的訓(xùn)練與識別速度有明顯的改善。他們?yōu)榱诉M一步提高識別速度,識別模塊中選取了多層識別器,可識別中國手語字典中的274個詞條,識別率為97.4%。與基于單個DGMM的識別系統(tǒng)比較,這種模型的識別精度與單個DGMM模型的識別精度基本相同,但其識別速度比單個DGMM的識別速度有明顯的提高。2000年在國際上他們首次實現(xiàn)了5000詞以上的連續(xù)中國手語識別系統(tǒng)。另外,清華大學(xué)祝遠(yuǎn)新、徐光等給出了一種基于視覺的動態(tài)孤立手勢識別技術(shù),借助于圖像運動的變階參數(shù)模型
和魯棒回歸分析,提出一種基于運動分割的圖像運動估計方法;趫D像運動參數(shù),構(gòu)造了兩種表現(xiàn)變化模型分別作為手勢的表現(xiàn)特征,利用最大最小優(yōu)化算法來創(chuàng)建手勢參考模板,并利用基于模板的分類技術(shù)進行識別。對12種手勢的識別率超過90%。在進一步研究中,他們又給出了有關(guān)連續(xù)動態(tài)手勢的識別,融合手勢運動信息和皮膚顏色信息,進行復(fù)雜背景下的手勢分割;通過結(jié)合手勢的時序信息、運動表現(xiàn)及形狀表現(xiàn),提出動態(tài)手勢的時空表現(xiàn)模型,并提出基于顏色、運行以及形狀等多模式信息的分層融合策略抽取時空表觀模型的參數(shù)。最后,提出動態(tài)時空規(guī)整算法用于手勢識別。對12種手勢,平均識別率高達97%。
盡管已經(jīng)實現(xiàn)了一些手語識別系統(tǒng),但中國手語識別仍然面臨許多挑占性課題,如手勢不變特征的提取、手勢之間的過度模型、手語識別的最小識別基于、自動分割識別基元、詞匯量可擴展的識別方法、手語識別的輔助信息、非特定人的手語識別問題、混合手指語和手勢語的手語識別以及中國手勢語語法等。
2 手語的合成
手語的合成是使聾啞人理解正常語言表達的最有效手段,在手語合成中涉及以下幾個方面的問題:本文輸入部分、文本切分部分、文本的分析與手語碼轉(zhuǎn)換、手語庫的建立與基于手語詞的手語合成和手語的顯示。
文本輸入部分的功能是編輯輸入漢語句子。文本的切分將句子分成詞,標(biāo)點符合單獨成詞。系統(tǒng)的分詞過程首先采用最大匹配發(fā)切分,然后利用第一步分詞結(jié)果通過查找詞條的歧義標(biāo)志位調(diào)用詞規(guī)則,進而進行歧義校正。文本分析與手語碼轉(zhuǎn)換是手語合成的重要部分。雖然中國手語是參考漢語制定的,但是兩種語言的差別主要體現(xiàn)在四個方面:語言表達形態(tài)、基本詞匯、句子結(jié)構(gòu)和構(gòu)詞方法。在語言表達形態(tài)上:漢語是靠語音/聽覺交際的有聲語言。中國手語是一種靠動作/視覺交際的可視化語言。在基本詞匯上:漢語的詞匯大約有近五萬多個字組成,總的詞匯量可達十萬多個。中國手語的詞匯僅由3330個手勢語組成。中國手語的手勢詞語與漢語的詞語不完全存在一一對應(yīng)的關(guān)系。在句子的語法結(jié)構(gòu)上:手語句子與漢語句子的詞序有所不同,此外還省略了日常語言的某些詞如量詞。因此從漢語轉(zhuǎn)換到中國手語,主要解決的基本詞匯上的差別,同時考慮部分詞匯的差別。手語詞庫記錄了每個手語詞的手語運動信息,是手語合成的重要基礎(chǔ)。建立手語詞庫不僅工作量大,而且其質(zhì)量也直接影響合成手語的結(jié)果。目前建立手語詞庫的方法有兩種:運動跟蹤方法和手工編輯方法。也有人綜合使用這兩種方式。運動跟蹤的方法是對腕關(guān)節(jié)及各手指關(guān)節(jié)的運動由數(shù)據(jù)手套獲取,肩關(guān)節(jié)與肘關(guān)節(jié)的運動由位置跟蹤傳感器獲取。而手工的方法是通過手工實驗來獲取手勢的參數(shù)。手語是一種可視語言,合成的手語只有顯示出來,觀察者才能“讀”取手語的信息與意義。手語的合成與顯示的實現(xiàn)的方法是:在VRML中有一部分是專門用于描述三維人體模型H-Anim標(biāo)準(zhǔn),根據(jù)此標(biāo)準(zhǔn)對虛擬人的定義,一個虛人有47關(guān)節(jié)96個自由度,只要確定這96個自由度的角度值,應(yīng)用運動學(xué)的方法和計算機圖形學(xué)的方法,就可以計算出虛擬人每個肢體的位置和方向,由此確定虛擬人的一個姿態(tài)。一個手語運動是一個人體手勢的序列,按照預(yù)定的時間間隔連續(xù)顯示一個手語運動中的每一個手勢,既可以生成對應(yīng)的手語運動。
3 手語的網(wǎng)絡(luò)通訊
當(dāng)今,網(wǎng)絡(luò)通訊已經(jīng)成為一種重要的通訊手段。研究啞語通訊,使聾啞人更好地融入網(wǎng)絡(luò)社會,感受科技的進步,更好地為他們服務(wù)并且方便了他們的生活。而手語作為一種動作語言,從廣義上講,它的應(yīng)用不僅僅局限于聾啞人之間,聾啞人與非聾啞人之間,以及異語種間健常人的交流都可能應(yīng)用到動作語言。從這個意義上,研究啞語的表達與通訊,具有更加廣泛的社會意義和實際應(yīng)用前景。
更實現(xiàn)手語的網(wǎng)絡(luò)通訊,必須采用一種恰當(dāng)?shù)募夹g(shù),它既能完成手語圖像動畫表示,它既能完成手語圖像的三維動畫表示,產(chǎn)生的數(shù)據(jù)、文件應(yīng)該盡可能地短小,且便于壓縮,以利于網(wǎng)絡(luò)傳輸,提高網(wǎng)絡(luò)傳輸速度,避免網(wǎng)絡(luò)擁塞,實現(xiàn)實時反應(yīng)。可以使用三維動畫技術(shù)來實現(xiàn)手語動畫,但一般的三維動畫技術(shù)形成的圖像雖然可能滿足生動逼真的要求,卻不適合網(wǎng)絡(luò)應(yīng)用。因為它們用于圖像和動畫的文件格式是基于像素的,大小和行為都是固定的,為了得到特體的三維印象,至少需要兩幅圖解,這使傳輸量巨大且不能實現(xiàn)交互。同時,基于HTTP、HTML標(biāo)準(zhǔn)的WWW只能表示和傳遞二維信息,不能滿足對三維環(huán)境和三維顯像具有特定要求的應(yīng)用需求。鑒于這種應(yīng)用的特殊要求,提出采用VRML技術(shù)。VRML(Virtual Reality Modeling Language)是一種可以在WWW上操作的三維圖形可視化工具,VRML 2.0發(fā)布于1996年8月,它能夠靈活有效的方式,將二維、三維圖形和動畫、影片、聲響和音樂等多種效果調(diào)和在一起,形成一個綜合性的單一媒體,在環(huán)球網(wǎng)上創(chuàng)建動態(tài)世界。VRML本身不是一種傳統(tǒng)的編程語言,它是一種建模語言,有它自己的文件格式,人們可以用它描述三維場景。它不但能滿足圖像質(zhì)量的要求,而且存儲和傳輸?shù)闹皇俏锢淼娜S坐標(biāo),圖像本身是在本地生成的,這就大大減少了網(wǎng)絡(luò)傳輸量,也便于進行交互操作。同時,使用VRML技術(shù)生成的文件格式是ASCII碼,能被有效地壓縮,這就進一步減輕了網(wǎng)絡(luò)壓力,提高了傳輸效率,能夠?qū)崿F(xiàn)手語圖像在網(wǎng)絡(luò)上高速傳輸。
另外,日本北海道大學(xué)的青木由直教授是研究手語通訊的倡導(dǎo)者,他通過建立一個不同語言的手語翻譯字典在Internet實現(xiàn)了日語和韓語的手語的聊天系統(tǒng),進一步又研究了日本與中國的手語變換,手語手成的二維及三維動畫,以及帶有面部表情和嘴唇形狀的日語和韓語的手語聊天系統(tǒng)等。
4 手的運動約束
人手的組成是一個非常復(fù)雜的結(jié)構(gòu)。手是由骨頭,連接骨頭的韌帶,作為拉力動力服務(wù)的肌肉,運動時連接肌肉與骨頭的腱,以及覆蓋著保護的軟組織和皮膚。骨頭通過關(guān)節(jié)連接起來并且不能改變大小,肌肉產(chǎn)生扭矩和關(guān)節(jié)通過拉力運動都存在一塊或更多的肌肉群為其服務(wù)。因此,手的運動極其復(fù)雜的。由于真實手的生理特點,手的運動受到一些限制和約束。分析手的運動約束,就可以更好研究虛擬三維人手的運動。這樣一來就可以在有關(guān)手的動畫片中避免一些不真實的動作,使其更加擬人化。
手的運動約束主要體現(xiàn)在關(guān)節(jié)的運動的約束上。有以下四種情況:(1)關(guān)節(jié)角度限制和運動類型的約束。第二到第五手指的
第三關(guān)節(jié)的運動僅能彎圣誕節(jié)/伸直或一方向運動,并且第一和第二關(guān)節(jié)也僅能在同一方向上彎曲/伸真。因此,第二到第五手指的四個手指在同一平面。(2)指骨之間的關(guān)節(jié)彎曲的約束。對人的手指運動來說,在沒有外力作用下,不可能存在第一關(guān)節(jié)彎曲而第二關(guān)節(jié)不彎曲的情況。經(jīng)研究發(fā)現(xiàn),第一關(guān)節(jié)彎曲的角度大約是第二關(guān)節(jié)彎曲角度的2/3。(3)掌骨與手之間的彎曲的約束。當(dāng)?shù)谌齻關(guān)節(jié)彎曲時大約角度是90°,而對于第二個手指卻少于90°,第三到第五個手指彎曲的角度超過90°。這是因為獨立的一個手指的彎曲要受到指狀組合型韌帶的限制,這樣一個手指的彎曲可能導(dǎo)致其它附近的手指的彎曲,同時一個手指的伸展也要受到其手指彎曲的阻止。因此,第三關(guān)節(jié)彎曲的角度依賴于相鄰的手指的彎曲或伸展。(4)掌骨與手之間的關(guān)節(jié)并攏與分開的約束。自然伸開手掌是,并攏與分開可自由進行,而握成一個拳頭時,隨著手指彎曲的角度增加分開與并擾的角度減少。第三個手指作用限制并擾與分開。此外手的運動約束還包括腕關(guān)節(jié),肘關(guān)節(jié)以及肩關(guān)節(jié)等。
手語研究的內(nèi)容多,范圍廣,發(fā)展很快,是一個很有前景的研究方向。當(dāng)然,手語研究較為復(fù)雜,而且涉及到多學(xué)科多領(lǐng)域,許多問題還有待于進一步的探索。
【手語研究的方向與現(xiàn)狀】相關(guān)文章:
欠發(fā)達鄉(xiāng)鎮(zhèn)的現(xiàn)狀和發(fā)展方向08-12
欠發(fā)達鄉(xiāng)鎮(zhèn)的現(xiàn)狀和發(fā)展方向08-15
我國物流研究的現(xiàn)狀及展望08-06
重慶物理新課改現(xiàn)狀與策略研究08-18