計算機應用

當前位置 /首頁/計算機/計算機應用/列表

對於未來計算機視覺應用的深思

無論是計算能力,還是記憶能力,計算機的如今表現都堪稱卓越。但僅擁有這些還遠遠不夠,我們期待計算機可以做得更多。耕耘在計算機視覺領域十餘年,賦予計算機一雙慧眼,讓它也能看懂這個多彩的世界,一直是激勵著眾多計算機從業人員在這條充滿挑戰的道路上前行的重要力量。在這篇文章中,小編將就如何讓計算機能“看”懂世界這個主題,為大家介紹計算機視覺的基本概念、這個領域面臨的挑戰、一些帶來重要突破的技術並展望未來的演進趨勢。

對於未來計算機視覺應用的深思

  世界如何在我們眼中形成?

對人類而言,“認人”似乎是與生俱來的本能,剛出生幾天的嬰兒就能模仿父母的表情;它賦予我們只憑極少細節就分辨彼此的能力,藉著暗淡燈光我們仍能認出走廊那端的朋友。然而,這項對人類而言輕而易舉的能力,對計算機而言卻舉步維艱。過去很長一段時間,計算機視覺技術徘徊不前,在進一步探求前,不如先談談我們是如何用眼睛觀察世界的。

相信大家都在中學的物理課上嘗過小孔成像的原理。不過人的眼睛要比小孔成像複雜得多,當我們觀察物體時,每秒大約掃視3次,並有1次駐留。當視網膜的感光體感受到蠟燭的輪廓,一個被稱為中央凹的區域其實是以扭曲變形的形式記錄下蠟燭的形狀。

那麼問題來了,為何我們看到的世界既未扭曲也沒有變形呢?很簡單,因為人類擁有大腦皮層這個萬能的“轉換器”,它將我們的視覺神經捕捉到的訊號轉換為真實的形象。這個“轉換器”可簡化理解為四個區域,生物學家將它們分別稱為V1、V2、V4和IT區。V1區的神經元,只針對整個視覺區域中很小的一部分做出反應,例如,某些神經元發現一條直線,就變得異常活躍。這條直線可以是任何事物的一部分,也許是桌邊,也許是地板,也許是這篇文章某個字元的筆劃。眼睛每掃視一次,這部分神經元的活動就可能發生快速變化。

奧祕出現在大腦皮層頂層的IT區,生物學家發現,物體在視野的任何地方出現(例如一張臉),某些神經元會一直處於固定的活躍狀態中。也就是說,人類的視覺辨識是從視網膜到IT區,神經系統從能識別細微特徵,到逐漸變為能識別目標。如果計算機視覺也可以擁有一個“轉換器”,那麼計算機識別的效率將大為提高,人眼視覺神經的運作為計算機視覺技術的突破提供了啟迪。

  計算機為何總是“霧裡看花”?

儘管人眼識別的奧祕已經被逐步揭開,但直接應用於計算機上卻非易事。我們會發現計算機識別總是在“霧裡看花”,一旦光線、角度等發生變化,計算機難以跟上環境的節奏,就會誤識。對計算機而言,識別一個在不同環境下的人,還不如識別在同一環境下的兩個人來得簡單。這是因為最初研究者試圖將人臉想象為一個模板,用機器學習的方法掌握模板的規律。然而人臉雖然看起來是固定的,但角度、光線、打扮不同,樣子也有差別,都令簡單的模板難以匹配所有人臉。

因此,人臉識別的核心問題在於,如何讓計算機忽略同一個人的內部差異,又能發現兩個人之間的分別,即讓同一個人相似,不同的人有別。

對人工神經網路的引進是計算機視覺超越模板識別的關鍵。然而人類尚且未完全掌握神經的運作機制時,又該如何引導計算機進步呢?人工神經網路在1960年代就已萌芽,初期理論只固定在簡單的模型之上,即生物課上的“輸入-隱層-輸出”模型。在介紹神經的工作原理時,老師們一般都會簡單告知是外界刺激接觸到輸入神經元,輸入神經元再連結其他部分形成隱層,最後通過輸出神經元表現出來。這些神經元的連結強度並不相同,就像不同樂譜的強弱高低不同,人工神經網路就是依靠這些神經元之間不同的連結強度,學會將輸入方式對映到輸出上。

不過“樂譜”只是靜止不動的,而且只能從“輸入走向輸出”,不存在反向呈現。也就是說如果人靜止不動,計算機也許可以通過這一原理讀出,但這在現實生活中不可能實現。1980年代末期,用於人工神經網路的“反向傳播演算法”發明,它能將輸出單元的錯誤傳回輸入單元,並記住它。這種方法令人工神經網路能從大量訓練樣本中學習統計規律,對未知事件做出預測。不過與大腦的複雜及層級結構相比,這種只包含一個隱層的神經網路構造還顯得微不足道。

TAG標籤:未來 計算機 #