讀懂唇語,為什麼這麼難呢?

前段時間,在微博看到這樣一條熱搜:#消防員不顧惡臭3小時尋回學生人工耳蝸#,據瞭解,孩子有聽力障礙,傢人為其定做的進口人工耳蝸價值30多萬,經過近3個小時的排查,消防員終於發現卡到下水道角落的人工耳蝸。

網絡截圖

根據世界衛生組織的統計,直到2020年,世界上大概有5億人罹患聽力障礙。這個數字正在以每年3%左右的速度在持續攀升,預計到2050年,全球就會有近10億人口,將要遭受到聽覺失常的折磨。

網絡圖片,侵刪

目前,當聽障患者與別人交流時,要麼需要通過效率低下的聾啞人手語,要麼就得借助價格昂貴的助聽器設備,無論采用哪種方式,都會造成不小的負擔。我們為什麼不能想象一下,通過“唇語識別”這項類似於智能眼鏡的技術,未來就能直接“讀出”別人正在說的話呢?

在影視劇中,每個人都可以是唇語大師。

網絡圖片,侵刪

但是在現實生活中,讀懂唇語,相當於在每兩秒鐘,就要完成一道完形填空題,所以不誇張的說,會讀別人的唇語,絕對算是一種超能力瞭。

01 讀懂唇語,為什麼那麼難?

當一個人說話時,嘴巴會隨著說話的內容,不斷地發生變化,在所有音標裡,隻有30%左右的音標,是直接由我們的嘴唇來控制的。

網絡圖片,侵刪

而剩下的七成音標,都是難以通過肉眼觀察出區別的齒音、舌音和喉音。這就是為什麼在很多時候,看上去一模一樣的嘴型,也很可能被解讀成完全不同的結果。

網絡圖片,侵刪

此外,說話人的連詞、口音、甚至是胡須的濃密程度,都會造成嘴型的變化。盡管這些變化非常細微,但任何一處變化,都足以影響讀唇的判斷,恐怕隻有像FBI幹員那樣的觀察水平,才能夠做到快速捕捉並且分辨出這些細微差別瞭。

網絡圖片,侵刪

02 所謂“唇語識別”,並不神秘

早在古代,就有專門的唇語師存在。通過長期的訓練,他們具備瞭“觀察別人的嘴型,解讀其表達語句”的能力。隨著科技的發展,人工智能在各領域漸次開放,在唇語識別上,機器已經在趕超人類瞭。

網絡圖片,侵刪

從技術路徑上,唇語識別是一項集機器視覺與自然語言處理於一體的復合型技術。不需要聽聲音, 僅依靠說話者的唇語動作, 利用識別模型對其唇部連續變化的特征進行提取與分析, 運用大數據計算出可能性最大的自然語言語句。

03 唇語識別的應用和發展

唇語識別技術可以輔助語音交互及圖像識別,在日常生活、安防、公益等各個領域實現廣泛應用。

通過唇語識別,可以讓聾啞殘障人士自由地表達和交流,並對其進行輔助教育;幫助存在溝通障礙的老年人順暢地與人溝通;通過口型支付密碼,判斷移動支付交易的真實性和有效性;在車載場景下解決由於噪音過大對語音指令造成幹擾的問題;在安防領域通過監控視頻獲取到重要講話信息,為公共安全和情報獲取提供有效支持等。

網絡圖片,侵刪

雖然唇語識別技術在各大公司及科研機構的共同努力下取得瞭很大的進步和成功,但是,想要真正的投入實戰並快速普及仍需面臨較多難題,例如:唇語視頻的收錄環境復雜、精準識別難度較大、長句識別水平有待提高、多場景識別還存在一定差距以及多人像唇語識別尚未實現技術突破。

網絡圖片,侵刪

解決這些難題是唇語識別技術運用到日常交互多場景下的關鍵,不過,越來越多AI企業開始發力唇語識別,泛函科技從開始就一直深耕於AI數據領域,致力於為全球人工智能企業提供專業的數據服務。

可以預見,隨著大數據與人工智能產業快速的蓬勃發展,在不久的將來,唇語識別能夠真正實現快速普及與全面推廣。

赞(0)