第七章.深度知覺(depth perception)

 

在前面幾章提及色彩、亮度、形狀、運動方向等等的視覺訊息處理歷程,然還有一項非常重要的、攸關吾人日常生活的視覺訊息--深度訊息--是我們經常使用的、也是相當自動快速運用的線索。例如開車時判斷兩車的距離、伸手拿遠距離杯子時都需要判斷深度。

但是如果讀者沒有忘記前幾章所交代的,應該會感到非常驚訝,那就是僅能表達二度空間並且與實物上下顛倒、左右相反的網膜影像中,如何能抽出失去了的第三度空間訊息呢?就好像用V8攝影機拍攝時,所得到的是一張一張2D平面的底片,這些底片中到底含有什麼線索可以透露出3D深度訊息?又人的兩隻眼睛分別位於左右同水平的位置,這樣的安排有利於深度判斷嘛?為什麼有的動物眼睛位於頭的前方(像人類、貓、狗),有的動物眼睛卻位於頭的兩側(像雞、鴨等飛禽類)?不同眼睛位置與深度線索的攫取有何關係?

在這一章中,我們將先從直觀的深度線索的分類談起,再漸漸把焦點放到雙眼立體視覺的討論上,以期對上述問題有一些正確的理解。

 

深度線索

一般而言,深度知覺分為兩類:一類是絕對距離(absolute distance)的知覺,亦即觀察者與外物之間的距離感,這涉及到自我中心定位(egocentric localization);另一類是相對距離(relative distance)的知覺,亦即觀察者外的兩個物體距離感,這涉及到物體相對定位(object-relative locallization)。這兩類知覺歷程相當不同,相對距離的判斷精確度遠遠高於絕對深度判斷的精確度(Graham,1965)。

到底有哪些線索可以幫助我們判斷這些深度?透過科學家的研究與內省,列舉了下列十二項基本的深度線索。

1.圖畫線索(pictorial depth):圖畫中越遠的越小,不涉及對畫中景物大小的先驗知識(prior knowledge)。讀者可參看第一章圖1- 。

2.遮蔽線索(interposition或occlusion):物體前後遮蔽的深度感(參考圖7- )。

3.陰影線索(shading、shadows):又分cast shadow,物體影子與物體本身分開;attached shadow,物體影子與物體相連。一般而言,由上方打光所造成的陰影位置,使我們感覺到凸的東西,若換成由下方打光,則會變成凹陷的深度感覺(參考圖7- )。

4.霧氣透視線索(Aerial perspective,或稱為Atmospheric perspective):空氣中的小粒子會造成短波散射大,長波散射小,故越遠的色調偏藍,而且越模糊,相對於近物而言,遠方的亮度(brightness)越低。中國國畫作品中經常可以看見這類深度視覺效果。

5.網膜影像大小線索(retina size、familiar size):越大的會覺得越靠近。例如龍眼就那麼一丁點大,但在圖畫中卻大得出奇,這會讓你感覺到它一定距離你很近。亦即對於物體大小的知識,影響你對於網膜成像距離的判斷,這與第1.點所指的圖畫線索有些不同,這裡涉及先驗知識的影響。

William Epstein(1965)就曾使用一角硬幣(dime)、二毛五硬幣與五毛硬幣的照片為材料,將三種硬幣的照片影像洗成一樣大,在暗室中請受試者僅用一隻眼睛,透過小小的探照燈觀看照片上的硬幣影像,並判斷該硬幣與受試者的距離。由於探照燈與暗室的精密操弄,使得受試者以為看到的是真的硬幣,結果受試者的距離判斷明顯受到關於硬幣知識的影響(參見圖7- )。

基本上,我們對於熟悉物體的尺寸、大小知識是固定的,所以我們的視覺系統才有大小恆常性(size constancy)的知覺特徵,亦即當一個人看起來身高變矮的時候(即網膜影像縮小了),大腦會自動詮釋為距離拉長了,反之,當一個人的距離越來越近時,我們的大腦會自動對增大的網膜影像打折扣,而仍能正確估計出這個人的實際身高。

雖然物體大小知識會影響我們的距離判斷,但是深度距離線索也會反過來影響我們的大小知覺,使我們失去大小恆常性。一個非常著名的例子是Ames room的設計(參看圖1-17),在該房間內遠處的東西都做得比近處的東西大,使得不管遠近的參考物體大小比例一致,近處的地板也要墊高,使吾人關於物體大小的參考座標完全混淆,我們在無法估計距離的情況下,只好全依照網膜成像大小來判斷物體大小了。我們稱這種大小知覺純粹受網膜影像大小來決定的方式為網膜決定律!

A.H.Holway與Edwin Boring(1941)的經典實驗即是用來說明深度距離的判斷也會影響大小知覺。Holway與Boring請受試者坐在兩個垂直走廊的交叉處,在一個走廊固定距離處,放置圓形比較刺激,另一個走廊放置不固定距離(從10英尺到100英尺的距離變化範圍),但同形狀的標準刺激,然後要求受試者調整比較刺激的圓形直徑,使得比較刺激的圓形大小與標準刺激一樣。這個實驗的關鍵是在於,實驗者雖在不同距離處放置標準刺激,但是標準刺激的大小都維持1度視角。如果受試者在良好情境下可以判斷標準刺激的距離,則所調整出來的比較刺激大小幾乎完全遵守大小恆常性定律(如圖7- 的情境一)。一旦實驗者逐漸剝奪受試者用來判斷標準刺激距離的線索(例如要求受試者指用一隻眼睛做實驗、經由小孔觀看標準刺激、甚至用布簾子遮住整個走道以減少光線反射)時,實驗結果就幾乎符合網膜決定論了(如圖7- 的情境四所示)。

還有一個有趣的實驗,讀者可以自行試試。就是凝視一張白紙上的黑圓圈(如下圖7- )約一分鐘,待其產生後像之後,在另一張白紙上觀察後像的大小是否與紙張的距離成正比?即紙張距離越遠,知覺到的後像越大。知覺到的後像物體大小(Sp)、知覺到的紙張距離(Dp)與網膜影像大小(Sr)三者之間的關係如下

Sp = k (Sr x Dp)

這個

關係式最早由Emmert(1881)發現,故也稱Emmert's law。

從上式可以看出,深度知覺與大小知覺判斷有相當密切的關係。Gregory(1966)稱這種深度線索影響大小恆常性的機制為恆常性調整機制(constancy-scaling mechanism),或稱為大小距離調整機制(size-distance scaling)。我們將在下一章中談論更多關於大小知覺與大小錯覺的議題。

6.線性透視線索(linear perspective):在許多著名畫家的畫作中(例如Leonardo da Vinci),經常可以看到這類深度視覺效果。他們使用一種稱為Alberti視窗的技巧,例如兩平行線交會於無窮遠的深度感(如圖7- 所示)就是這類線索。

7.質地梯度(texture gradient):亦即越近的顆粒,質點越大、越稀疏;反之,越遠的顆粒,質點越小、越密集。

 

8.水晶體調節線索(Accommodation):亦即注視越靠近眼睛的東西,造成水晶體彎曲得越厲害、越膨脹;反之,注視東西越遠,水晶體曲度則較平坦。

9.雙眼輻輳線索(vergence):亦即看越近的東西,造成雙眼視軸聚合(converge)越嚴重,像鬥雞眼一般;反之,看遠的東西,則雙眼視軸漸漸分離(diverge)開來。因為,假設你凝視眼前d mm距離遠的一個光點,兩眼瞳孔距離為62 mm,則你的雙眼聚合角度θ與d的關係如下:

31

θ=2 Tan-1(────── )

d

例如凝視1公尺遠的光點時,聚合角約等於0.0628弧度。1弧度=57.3度=57.3*60分=57.3*3600(206280)秒,所以上例也等於3.6度=216分=12960秒。

10.像差線索(disparity):即相對深度越深遠,雙眼像差就越大。像差是偵測相對深度最有效的線索,讀者若想要親身體驗這一個線索的生動性質,可參觀台中科學博物館中的立體電影院。以下我們還要另闢專節來討論這項深度線索的相關研究。

11.運動視差(motion parallax):越遠的東西運動速度越慢,越近的東西運動速度越快,而且在凝視點(fixation point)之前,即在凝視點與觀察者之間,的景象與自身運動方向相反;凝視點之後的景象與自身運動方向相同。這個深度線索被生態取向研究者以光流訊息(optic flow)的變化來解釋。另一現象也包含在內,即看一個旋轉中的立體的2D投影,可以讓我們感覺出它原來的立體形狀感覺,又稱為動態深度效應(Kinetic depth effect)。

12.表面消除與表面重現(surface deletion & surface acretion):觀察者在運動過程中,從某個視向角度(visual direction)看時,近物遮住遠物的某一部份表面,從另一個視向角度來看時,上一部份又現出,遮住另一部份。這類動態的先隱再現的表面,是深度感的另一重要線索。

如果要將上述林林總總的深度線索做個分類,一般可以表現如下圖 的方式。

 

雙眼視覺(Binocular vision)

上述所提到的各類線索中,像差線索恐怕是最晚受到科學家注意的線索,因為自古以來都強調以單眼可以辨識出來的深度線索為作畫依據,而且在日常生活中,獨眼龍仍然能夠對9成以上的深度判斷事件作出正確反應,因此雙眼像差的重要性便不易凸顯。然而,從歐幾里德、亞里斯多德起就已經注意到,吾人的兩隻眼睛所看到的影像不完全相同,但是我們在日常生活中幾乎不曾感受到雙重影像(double images,或稱diplopia)的存在。到底吾人的視覺系統如何把不同網膜影像聚合成單一的視覺經驗?這一系列的研究也突顯了本書第一章所提到的知覺議題知覺的形成必經過神經系統的主動運作的重要性。以下將簡述這方面研究的成果。

 

一般說來,只要是有兩隻眼睛的動物,都會有所謂的雙眼視覺,亦即兩隻眼睛的訊息必定要在大腦中做一個整合。但是此處要談的雙眼視覺,特別是指像人類一般,由兩隻眼睛大量交疊(overlap)的視野中,抽取出深度訊息這件事。現在我們已經知道,人類同時擁有兩隻眼睛的目的不只是抽取深度訊息而已,兩隻眼睛的運用也提供更好的空間解析度,有利於各種視覺作業的偵測與區辨。在談到雙眼像差如何引發深度感之前,先讓我們來看看兩眼網膜影像的對應關係。

 

如果將兩眼網膜的中央小窩區重疊,左眼網膜顳側與右眼網膜顳側對齊、鼻側與鼻側對齊,則兩張網膜重疊的位置點就被稱為對應點(corresponding point),如圖7- 所示。圖7- 也標明了兩眼凝視的位置,f,此時f點必分別落在兩眼fovea區域內,即圖中標出的F位置。圖中也標出三個兩眼對應點座標AA'、BB'與CC'。如果外界另外幾個光點a、b、c分別落在兩眼的對應點AA'、BB'與CC',則我們稱這些點(a、b、c、f)都是在所謂的零像差平面(Horoptor)上。吾人在觀看這一個曲面上的每一個點時,雙眼的輻輳(converge)程度都一樣,亦即Horoptor上的每一個光點都會自動落在兩眼的對應點。其實,Horopter這個名稱是由Aguilonius(1546-1617)首先提出,取希臘字母「觀察者」(opter)與「邊界」(horos)的意思,但是當時Aguilonius對horopter的定義與現在我們使用的定義不同(可參閱圖7- 的說明),所以現在大多數書本已經不記載它的來源了。

接下來我們要談談,什麼是像差?像差怎麼計算?

 

當一個物體投影在兩眼網膜上的影像不在對應點上的時候,我們定義左眼網膜落點與左眼中央小窩的視角減去右眼網膜落點與右眼中央小窩的視角,稱之為像差,請參見圖7- 所示。假設圖7-中,a點所造成的像差 = D(單位為徑度、radians、arc),則D = FC - B'F'(亦即F到C的視角減去B'到F'的視角)。我們可以經由幾何運算估計出該像差值與兩眼瞳孔距離(e,一般人的瞳孔距離約為62 mm)、f到a的距離(Δd)和凝視點距離(g)之間的關係如下:

eΔd

D≒──────

g2 + gΔd

 

當Δd很小時,上式也可化約為

 

eΔd

D≒──────

g2

 

其中,1 弧度 = 57.3 度= 60 x 57.3 分 = 3600 x 57.3(=206280)秒。

 

假如a點比凝視點f遠,則稱非交叉型像差(uncrossed disparity,因為兩眼視軸不會在遠處交叉而命名)或稱遠像差;反之,當a點比凝視點f近,則造成交叉型像差(crossed disparity,因為在凝視點之前,兩眼視軸必交叉而命名)或稱近像差。當然,當a點與f點重疊,則造成零像差(zero disparity)。

 

Sir Charles Wheatstone(1802-1875)是第一個利用像差原理作出立體鏡的人。後來 Sir David Brewster(1781-1868),也用兩個透鏡做了一個立體鏡,我們現在都慣稱這類透鏡式的立體鏡為Brewster's prism stereoscope。不過他們兩個是利用兩部相機,模擬兩隻眼睛的距離,拍出兩張照片之後,再用立體鏡觀看。這類立體圖在雙眼融合前後形狀都一樣,只有深度的生動感不同,如圖 所示。

有趣的是,1854年,一個默默無聞、沒受過多少教育的商人George Swan Nottag在倫敦成立了第一個立體鏡公司之後,四年光景就賣出超過1百萬個立體鏡與各式漂亮的立體圖,而瞬間成了頗有財富名聲的人。也許讀者看到這ㄦ,會覺得原來這些基礎的知覺原理也潛藏著許多商機,不是嘛?這個關於立體圖原理的商機到目前仍然方興未艾,除了立體鏡外,目前也用在虛擬實境(virtual reality)遊戲與機器視覺辨識上。

 

當時(十九世紀末)的科學家,包括Helmholtz,咸認為這類像差引起的立體視覺應該是非常高層次的認知運作(high-level cognitive process)造成,亦即從雙眼不同影像內容整合出統一視覺世界(unified visual world)的活動,是一種心智活動(mental act),它絕對不是簡單的、早期視覺輸入管道的影像訊息重疊而已。Ramon y Cajal(1911)甚至提議,腦中應該具有一種可以整合兩眼對應點訊息的細胞,他稱為isodynamic cell。

其實,在更早的時候,就有人提出Cyclopean eye 這個名詞,用來指涉雙眼訊息匯聚之處。Cyclopean eye這個詞彙,因為每個用它的人都指涉不同的意義,所以我們有必要在此對它做一些詳細的介紹。原本Cyclops是指荷馬(Homer)史詩奧迪賽(Odyssey)故事中的單眼巨獸,用來敘述一個出生就只有一隻眼睛的怪物。不過十六世紀時的生理學家Galen則是把Cyclopean eye認為是視交叉(optic chiasma)位置的眼睛,亦即在該處兩眼影像會融合成一個影像。Helmholtz則使用Cyclopean eye來指涉視覺系統中,以頭為中心的(headcentric)方向判斷中樞,頭轉向哪ㄦ,此眼就面向哪ㄦ。實際上兩眼的視向並不一定如此!但是大腦仍不會產生兩個視向(direction)的感覺,而是一個視向的統整感覺,因此這個中樞也必是兩眼訊息匯聚之處。Julesz則用Cyclopean eye泛指一切需要整合兩眼訊息才能獲得知覺結果的歷程,用來與單眼的網膜處理歷程(retinal processing)相對比。在本書中甚至定義:單用一隻眼睛不能獲得,而必須使用雙眼才能獲得的影像特徵稱為Cyclopean stimulus。

 

後來,Hubel與Wiesel(1959,1962)直接在貓的視皮質區內找到雙眼敏感細胞(binocular cell)。這類細胞具有在左右兩眼上,相同位置、相同形狀的R.F.。Barlow,Blakemore與Pettigrew(1967)、Pettigrew,Nikara與Bishop(1968)等人遵循Hubel、Wiesel的電生理測量方法,也相繼在眼肌被麻醉了的貓的視皮質區找到,對兩眼不同位置(即不同像差)反應的細胞,被稱為像差敏感細胞(disparity cell或disparity detectors)。這些像差敏感細胞基本上可分為三種類型:一類對零像差敏感,稱為零像差敏感細胞(tuned excitatory cell);一類對近像差敏感,稱為近細胞(near cell);一類對遠像差敏感,稱為遠細胞(far cell)。零像差敏感細胞對左右眼來的訊息並沒有特別強的反應偏好,但是遠細胞與近細胞就有強烈的左眼反應偏好或右眼反應偏好(又稱為ocular dominance)。

 

 

這些像差敏感細胞大約分佈在貓視皮質區的17(雙眼敏感細胞約佔70%)、18、19(雙眼敏感細胞約佔34%)區(Guillemot et al.,1993)。也在貓皮質下的上小丘(superior colliculus)(Berman,1975)與opossum區域(Dias,1991)看得到像差敏感細胞的蹤跡。

這樣的像差敏感細胞不只是在貓身上找到,也在猴子身上找到(Hubel與Wiesel,1970;Poggio與Fischer,1977)。但是Hubel與Wiesel(1970)當時並沒有在V1區找到像差敏感細胞,只在V2區找到。後來的研究者已經陸續在V1(Poggio,1984;Hubel)、V3(Felleman與Van E),甚至MT區(Maunsell與Van Essen,1983)內找到像差敏感細胞。這些像差敏感細胞的反應型態大約可區分出六類型,如圖7- 所示。

但是誠如D.Marr所說的,對於每一個單一細胞的像差敏感反應我們都清清楚楚了,但是我們仍然無法做出一個機器人能夠像人一般,看出立體圖來。關鍵在於,我們不知道神經細胞之間如何傳遞、組織、計算這些訊息。以下我們將介紹Julesz 的隨機點立體圖與雙釘錯覺(double-nail illusion)現象,藉以了解神經計算在整個知覺運作上的重要性。

Bela Julesz(1960)是第一個以隨機黑白亂點製作出有立體感的錯覺的人,這種圖在雙眼融合(fusion)之前看不到任何深度平面或有意義形狀,但是雙眼融合之後便可形成有意義、各類深度平面與形狀,我們慣稱這一類圖形為隨機點立體圖(random-dot stereogram,以下簡稱RDS),請讀者參看圖7- 。

 

這種圖形的製作方式很簡單,只要將兩張一模一樣的隨機點圖中的其中一張,圈選一個範圍的隨機點,將之做水平位移後,即算完成。我們以下面0、1的矩陣圖形表示隨機點,中央黑色粗體的數字區域即表示圈選的範圍,注意左右兩張完全相同的粗體範圍,內部的數字矩陣完全相同,但是在水平方向上有位移。其中X、Y表示該區域在水平位移後所遺留下來的空位,可以另外一些隨機點填入。

將這樣的程序重複兩次,一次圈選一個大方形區域,另一次圈選小方形區域(讓小方形區域在大方型區域的中心),這樣即可做出如圖7- 的隨機點立體圖。

 

1

1

1

1

1

1

1

1

0

0

1

 

1

1

1

1

1

1

1

1

0

0

1

0

0

1

1

0

0

0

1

1

0

0

0

0

1

1

0

0

0

1

1

0

0

1

1

1

1

1

1

1

1

0

1

0

1

1

1

1

1

1

1

1

0

1

0

0

1

1

0

1

1

0

X

1

1

1

0

1

Y

1

0

1

1

0

1

1

1

0

0

0

1

1

0

0

Y

0

0

1

0

0

X

0

1

1

0

0

0

0

1

1

1

1

0

0

0

1

Y

1

1

1

1

1

X

1

0

0

0

1

1

1

1

1

0

0

1

0

1

1

X

1

1

0

1

0

Y

0

1

0

1

1

1

1

0

1

0

1

0

1

0

0

X

0

0

0

1

0

Y

1

0

1

0

0

0

0

0

1

1

0

1

0

0

0

1

0

1

0

1

1

0

1

0

0

0

1

0

1

0

0

0

0

1

0

1

1

1

0

0

1

0

0

0

1

0

1

1

1

0

0

1

0

1

1

1

1

0

0

1

1

1

1

0

1

1

1

1

0

0

1

1

1

1

 

這類RDS的觀看方式為,左眼看左圖、右眼看右圖,盡量將視線聚焦於無窮遠處(亦即想向自己發呆時的情景,兩眼直視前方的樣子),接下來你漸漸感覺到左右兩張圖像開始交疊(亦即所謂的雙眼融合過程),最後交疊成一張,或者你會看到三張圖,此時請注意中間那一張,那就是有立體感的圖像了。

對於第一次觀看這類圖形的人而言,以上觀看步驟的陳述也許還是無法讓你觀看成功,亦即你可能經驗到雙重影像的知覺結果(diplopia),這可能是因為你還不習慣在如此情境下,調整自己眼球的焦距所致,沒關係,還有其他觀看的方式。圖7- 將左右兩張隨機點圖合併成一張,但是左眼圖中所有的白點轉換為綠色點,右眼圖中的白點轉換成紅色點,就疊成一張所謂的紅綠隨機點立體圖(anaglyph),紅綠重疊處為黃色點,此時你只要戴上紅綠鏡(即兩眼色澤不同的有色眼鏡,左眼是紅色的鏡片,右眼是綠色的鏡片,或者左右眼鏡片顏色互換亦可)幾乎馬上可以看出三層方塊的立體感。

除了以上兩種方法之外,還有至少五、六種設備也可讓你觀看到這類立體圖。例如有一種稱為autostereogram的立體圖製作方式(參見圖7- 所示)。還有利用偏光鏡原理,讓左右兩眼所戴偏光鏡的光線偏振方向互相垂直,並以兩部攝影機相隔約62mm同步拍攝影片,再以左右兩眼所戴之相同偏光鏡播放影片,則觀賞影片的人透過偏光鏡就可以看到生動的立體電影了。不管是什麼設備,它們都遵循相同的像差原則,即在物理刺激的排列上,模擬兩眼網膜像差的變化。

如果您嘗試了許多種方法和儀器,仍然看不出一般人看得出來的立體圖,別慌張,這並不一定影響到您日常生活中的深度判斷,但建議您可以去眼科醫師那邊做個詳細檢查,看看是否是斜視太嚴重?或者是立體盲(stereo blind)了。

那麼,到底一般人可辨識的像差深度有多大限制?假設一般兩眼瞳孔距離為62mm,許多不同的實驗發現,人眼可辨識的最小像差深度約為1.86秒(Howard1919Lauglands1926Woodburne1934),亦即在6公尺遠處之凝視點前後約516mm= (6*36000000)(62*206280) )以上的距離差異,可被吾人的雙眼偵測出來。然一般可產生雙眼融合的深度範圍則隨著遠離中央小窩而逐漸增大,在中央小窩處最大約5分,離中央小窩水平方向10度的位置,約可容忍10分。這個可融合範圍最早由P. L. Panum1958)提出,所以又稱panum's area。一般而言,在3度視角以外,panum's area的範圍約等於視角的3%,因此在6公尺遠的凝視點前後,約85公分以上差距的兩個不同深度的光點就很容易造成雙重影像(diplopia)了。

如果我們比較一下,用雙眼正視與用單眼正視的方式,所測量出來的可辨識的最小深度,將會發現當雙眼可區辨6mm以上的深度距離差異時,單眼正視約只能區辨37mm,甚至需達50mm以上的深度距離差異才能清楚區辨,可見兩隻眼睛在某種範圍內,的確提供我們更精確的深度解析度。讀者也可以嘗試閉上一隻眼睛,只以一隻眼睛用鉛筆在事先畫有圓圈的紙上,點出圓心來,你將發現用雙眼來做的精確度高得多。不過,超過1000公尺遠處,雙眼視覺也無法發揮功能了。

影響吾人像差深度閾值的因素概有,觀察距離、觀察姿勢、疲勞度、缺氧等等。

然不同的3D物體可能有相同2D網膜上的投影(即便是同一物體也會因為觀看角度不同,而有不同的網膜投影),因此,同一種雙眼網膜上的光點排列位置,可能對應外界兩種或兩種以上的深度安排。此時視覺系統如何消除錯誤的安排(我們稱這些錯誤的安排為假目標),留下正確的排列?這個問題在立體視覺研究領域中,是一個相當重要的問題,又被稱為假目標問題(False target problem)。

用來說明假目標問題最好的例子是雙釘錯覺。請讀者參考圖 ,想像距離雙眼中線(median plane)前方約30公分處,存在前後兩根釘子(標為AB),相距2公分,則其分別在兩眼網膜上的投影點為2314。不過,如果這兩根釘子位於CD空間位置上的時候,其分別在雙眼網膜上的投影點也是1234四點,