雛形階段:
20世紀50年代前后:
計算機視覺剛剛起步,依舊屬于模式識別領城,主要處理對二維圖像的分析和識別。
20世紀60年代中期:
Lawrence Roberts的(三維固體的機器感知》描述了從二維圖片中推導三維信息的過程,開創了以理解三維場景為目標的三維計算機視覺研究。
初始階段:
20世紀70年代:
馬爾在計算機視覺領域做出了最具開創性和最重要的貢獻,提出了第一個完善的視覺框架--視覺計算理論框架。在視覺計算中, 視覺被作為不同層次的信息處理過程,實現目標是計算機對外部世界的描述,以獲得物體的三維形狀。他提出三個層次的研究方法,即計算理論層、表征與算法層和實現層,由此提出了自上而下無反饋的視覺處理框架。
繁榮階段:
由于視覺計算理論框架的魯棒性不夠,因此無法在工業界得到廣泛應用。隨后,出現了主動視覺、定性視覺、目的視覺等各個學派。
中興階段:
繁榮階段持續的時間不長,且方法繁多,對后續計算機視覺的發展產生的影響并不大,猶如曇花一現。隨后,人們發現多視幾何理論下的分層三維重建能有效提高三維重建的魯棒性和精度,由此,計算機視覺進入中興階段。
現代階段:
1989年,Yann LeCun將反向傳播算法應用于Fukushima的卷積神經網絡結構
LeCun發布了 LeNet模型,這是第一個現代的卷積神經網絡。
2006年前后, Geoffrey Hilton提出了用GPU來優化深度神經網絡的工程方法,并在《科學》雜志上發表了論文,首次提出“深度信念網絡”的概念,他賦予多層神經網絡一個新名詞--深度學習。
隨后,深度學習在各個領域大放異彩。
2009年,FeiFeiLi在CVPR上發表了一篇名為ImageNet: A Large-Scale Hierarchical Image Database的論文,發布了ImageNet數據集,這改變了在人工智能領域人們對數據集的認識,這時人們才真正開始意識到數據集在研究中的地位,就像算法一樣重要。ImageNet是計算機視覺發展的重要“推動者”,也是深度學習的關鍵“推動者”。
2012年,Alex Krizhevsky, Ilya Sutskever 和 Geoffrey Hinton創造了一個大型的深度卷積神經網絡,即AlexNet。此模型在ImageNet數據集中表現得極為出色,識別錯誤率從26.2%降低到15.3%。他們的論文ImageNet Classification with Deep Convolutional Networks,被視為計算機視覺最重要的論文之一,自此,卷積神經網絡成為計算機視覺的標準算法。
2014年,蒙特利爾大學提出生成對抗網絡(GAN):擁有兩個相互競爭的神經網絡可以使機器學習得更快。一個網絡嘗試模仿真實數據生成假的數據,而另一個網絡則試圖將假數據區分出來。隨著時間的推移,兩個網絡都會得到訓練,生成對抗網絡(GAN)被認為是計算機視覺領域的重大突破。
2017-2018 年,深度學習框架的開發發展到了成熟期。PyTorch 和 TensorFlow 已成為首選框架,它們都提供了針對多項任務(包括圖像分類)的大量預訓練模型。
2019, BigGAN,同樣是一個GAN,只不過更強大,是擁有了更聰明的課程學習技巧的GAN,由它訓練生成的圖像連它自己都分辨不出真假,因為除非拿顯微鏡看,否則將無法判斷該圖像是否有任何問題,因而,它更被譽為史上最強的圖像生成器。
2020年5月末,Facebook發布新購物AI,通用計算機視覺系統GrokNet讓“一切皆可購買”。
至今,計算機視覺與其他學科交叉融合日益加深,推動了多模態感知和認知智能的研究。