第124章 神經網路架構(第1/3 頁)
思想雛形可追溯至 1943 年,麥卡洛克和皮茨提出神經元數學模型,以簡單邏輯運算模擬生物神經元興奮、抑制狀態,奠定理論基石;1957 年,羅森布拉特發明感知機,這是首個具有學習能力的神經網路模型,能對線性可分資料分類,引發學界廣泛關注,燃起神經網路研究熱情,卻因無法處理非線性問題,後續發展受限。
(二)蟄伏低谷期(1960 - 1980 年代)
受限於當時計算機算力不足、資料匱乏,以及明斯基等學者對感知機侷限性的批判,神經網路研究陷入寒冬。雖偶有零星探索,如格羅斯伯格的自適應共振理論,嘗試解決穩定性與可塑性平衡難題,但整體進展緩慢,資金投入銳減,學術氛圍低迷。
(三)復甦崛起期(1980 - 1990 年代)
80 年代,神經網路迎來轉機。霍普菲爾德提出 hopfield 網路,引入能量函式概念,可解決最佳化問題、聯想記憶,在影象識別、組合最佳化初顯身手;反向傳播演算法(bp)完善成熟,有效解決多層神經網路權重調整難題,神經網路藉此突破層數限制,深度學習概念漸具雛形,吸引大批科研人員投身研究,商業應用嶄露頭角。
(四)高速發展期(2000 年代 - 今)
進入 21 世紀,網際網路普及催生海量資料,GpU 等高效能運算硬體問世,為神經網路發展注入強勁動力。2006 年,辛頓等人提出深度學習理念,掀起新一輪熱潮;AlexNet 在 2012 年 ImageNet 競賽奪冠,宣告卷積神經網路(cNN)大放異彩,此後 ResNet、VGG 等經典 cNN 架構不斷湧現;迴圈神經網路(RNN)及其變體 LStm、GRU 在自然語言處理領域獨樹一幟;近年,transformer 架構橫空出世,革新自然語言與計算機視覺諸多應用,引領神經網路邁向新高度。
二、經典神經網路架構拆解與原理剖析
(一)多層感知機(mLp):基礎神經網路形態
mLp 是最基礎的前饋神經網路,由輸入層、隱藏層(多個)和輸出層構成。神經元分層排列,相鄰層全連線,訊號單向傳遞。輸入層接收原始資料,經隱藏層神經元加權求和、啟用函式變換,提取特徵,最終在輸出層輸出結果。bp 演算法是 mLp 訓練 “利器”,依據誤差反向傳播調整權重,最小化損失函式。常用於簡單分類、迴歸任務,如手寫數字識別、房價預測,訓練簡單、理解直觀,但面對大規模高維資料易出現過擬合。
(二)卷積神經網路(cNN):影象識別利器
cNN 專為處理網格化資料(如影象、音訊)設計。核心元件有卷積層、池化層和全連線層。卷積層利用卷積核在影象上滑動,提取區域性特徵,權值共享大幅減少引數數量;池化層降低資料維度,保留關鍵資訊,提升計算效率;全連線層整合特徵,完成分類或迴歸。經典架構 AlexNet 憑藉深層卷積結構,革新影象識別精度;ResNet 引入殘差連線,解決梯度消失問題,訓練深層網路遊刃有餘;VGG 以規整卷積層堆疊,凸顯網路深度優勢。cNN 在安防監控、自動駕駛、醫學影像診斷廣泛應用。
(三)迴圈神經網路(RNN):序列資料處理專家
RNN 用於處理序列資料,如文字、語音、時間序列,關鍵在於神經元間帶反饋連線,隱藏狀態儲存過往資訊,隨時間步遞推更新。但傳統 RNN 面臨梯度消失或爆炸問題,長序列記憶困難。LStm 和 GRU 應運而生,引入門控機制,精準控制資訊留存、更新、輸出,提升長序列處理能力。RNN 常用於機器翻譯、情感分析、股票價格預測,賦予機器理解時間順序與上下文語境的能力。
(四)自編碼器(AE):資料降維與特徵提取能手
AE 含編碼器和解碼器兩部分,編碼器將高維輸入資料壓縮成低維特徵表示(編碼),解碼器再從編碼重構原始資料。訓練旨在最小化重構誤差,迫使網路學習資料關鍵特徵。AE 應用廣泛,可用於資料壓縮、去噪、異常檢測。變分自編碼器(VAE)更是引入機率分佈概念,生成全新資料樣本,拓展應用至影象生成、藥物分子設計領域。
三、前沿神經網路架構創新探索
(一)transformer 架構:革新自然語言與視覺處理
transformer 摒棄 RNN 順序依賴,