1.07k likes | 1.3k Views
Chapter 5. 物體與場景知覺. Computer perception system The Defense Advanced Research Projects Agency (DARPA) The March/2004 race (142 miles across the Mojave Desert)—1 million prize. The October/2005 race (132 miles) –2 million prize winner.
E N D
Chapter 5 物體與場景知覺
Computer perception system • The Defense Advanced Research Projects Agency (DARPA) • The March/2004 race (142 miles across the Mojave Desert)—1 million prize
The October/2005 race (132 miles) –2 million prize winner “…Now we need to teach them how to drive in traffic.”-- Gary Bradski, Intel Corporation as quote in the October 17, 2005 issue of the EE Times
Urban challenge race • Victorville, CA, Nov 3, 2007 • 55 mile course that resemble city streets and other moving vehicles • $2 million • 1st place winnder averaged approximately 14 mph throughout the course • http://www.youtube.com/watch#!v=SQFEmR50HAk&feature=related • http://www.youtube.com/watch#!v=6SfaCkhhQT8&feature=channel
物體知覺實際上並不簡單 • 兩大基本問題 • 知覺組織(perceptual organization)—視覺系統如何把龐雜環境刺激組織成為「物體」? • 圖形-背景(Figure-ground)—視覺系統如何把龐雜環境刺激中的一部分歸為「背景」,一部份歸為「圖形」?
知覺機器(人,車)面對的挑戰 • 網膜刺激型態未必能代表環境刺激3-D 2-D
由不同角度觀看時,同一物體的影像不同--能認出不同觀看角度的影像為同一物體稱為具有方位不變性(viewpoint invariance)
哪兩張臉是同一人? Fig. 5-7, p. 97
影像中產生亮度改變的原因經常無法確定 不同材質 陰影有無
格式塔學派對知覺組織的研究取向 • 對結構主義(structuralism)的反動 • 結構主義是馮特(Wundt)等人開始建立(20世紀初期) • 知覺是由感覺因子結合而成 • 心理化學(mental chemistry) • Max Wertheimer 覺得似動運動(apparent movement)否定了結構主義AM,所以和K.Kofka, I.Kohler從事格式塔心理學的研究 • 結構主義也不容易解釋錯覺輪廓(illusory contour)ic
格式塔學派因而拒絕了結構主義(知覺是感覺的總和),而主張整體不等同於部分的總和,並開始注重知覺組織的問題格式塔學派因而拒絕了結構主義(知覺是感覺的總和),而主張整體不等同於部分的總和,並開始注重知覺組織的問題
知覺組織的格式塔定理 • 完形律(law of Pragnanz)=law of good figure, law of simplicity刺激型態的知覺以產生最簡結構為原則 good figure
相似律 • 相近的物體會被組織在一起
連續律(law of good continuation) • 傾向將可形成直線或平滑曲線的點連接起來,形成具有平滑路徑的線條型態 Fig. 5-16, p. 100
接近律(law of proximity) • 空間鄰近的物體會被組織在一起
共同命運(common fate) • 以相同方向運動的物體會被組織在一起 • 熟悉度 • 能共同構成熟悉型態的影像成分會被組織在一起
格式塔以外的知覺組織原則(Palmer & Rock) • 共同區域(common region) • 落入共同區域的元素會被組織在一起 • 元素連結(element connectedness) • 連結的物體會被組織在一起 • 同步性(synchrony) • 同時發生的視覺事件會被組織在一起
connectedness synchrony common region
這些格式塔定律的地位是什麼? • 定理 (law) vs. 原則 (principle) vs. 經驗法則 (heuristics) • 經驗法則(Heuristics) vs. 算則 (algorithm) • They are best-guess rules that do not work every time. But, when they do, they work very fast.
圖形背景(figure-ground)分離 • 格式塔學派 • 可逆圖形(reversible figure)vase • 圖形及背景的成立要件 • 圖形比較像東西,位於背景之前 front • 對稱的比較可能是圖形 sy • 佔據面積較小的比較可能是圖形 small • 水平或垂直方位的比較可能是圖形 vertical • 有意義的物體比較可能是圖形meaning • 下方的比較可能是圖形,左右沒有差異Vecera et al. (2002)
back Figure 5.24 A version of Rubin’s reversible face-vase figure.
Figure 5.27 (a) Stimuli from Vecera et al. (2002). (b) Percentage of trials on which lower or left areas were seen as figure Vecera 用了二種方法: 1) 判斷那一邊是圖形 2) 30秒期間,根據知覺到的圖形(非背景)是哪一個而按鍵,結果下方的有84%的時間被知覺為圖形
RBC theory (recognition by components) 如何由不同觀看角度辨認物體? 結構描述(structural description)模型 將物體表徵為「部件」以及部件之間的「空間關係」 D Marr (1982) 「部件」為柱狀的,具有體積的單元
部件為幾何子(geons) • 為數不多的幾何子(及其間的空間關係)即可用以代表大量的物體
幾何子最重要的特性是它的解析不受觀看角度影響(view invariant) • 因為幾何子是由非偶發特性(non-accidental property, NAP)所界定的 • 2-D影像中的特性,其實就是3-D物體的實際特性
平行性 彎曲性
只要界定幾何子的重要特徵仍然保留,就不太受雜訊影響只要界定幾何子的重要特徵仍然保留,就不太受雜訊影響
可以用以表徵許多類型的物體 • 但無法解釋一般人何以能區辨細節不同的物體
影像描述(image description)模型 • 觀看角度不變性(view invariance)未必成立,所以辨認歷程將影像與儲存的各種觀看角度表徵作比較
Perceiving Scenes • What is a scene ? • 包括背景與物體(以有意義的方式安排在一起)