ํฐ์คํ ๋ฆฌ ๋ทฐ
CNN ์ํคํ ์ณ ๋น๊ต(AlexNet, VGG, GoogleNet, Resnet, SENet)
ํด๋์๊ทธ 2025. 2. 12. 12:02Preview
CNN ์ํคํ ์ณ๋ฅผ ์ดํด๋ณด๊ณ , ๊ฐ๊ฐ ์ฑ๋ฅ์ ๋์ด๊ธฐ ์ํด ์ด๋ค ๋ฐฉ์์ ํ์ฉํ์๋์ง ์์๋ณด์.
AlexNet
- ์ต์ด์ Large scale CNN
- ReLU ์ฒ์์ผ๋ก ์ฌ์ฉ
- GPU 2๋๋ฅผ ์ด์ฉํ์ฌ ๋น ๋ฅธ ์ฐ์ฐ ๋ณ๋ ฌ๊ตฌ์กฐ
Layer์ ์ : 8๊ฐ
Color image๊ฐ input
Data augmentation ์ฌ์ฉ : ๋ฐ์ดํฐ์ ์ด๋ฏธ์ง๋ฅผ ์ข์ฐ๋ฐ์ or ์๋ผ์ or RGB๊ฐ ์กฐ์ ํ์ฌ ๋ฐ์ดํฐ์ ์๋ฅผ ๋๋ฆผ
Norm Layer ์ฌ์ฉ : batch normalization, ์ง๊ธ์ ์์ฐ์.
ํํฐ ํฌ๊ธฐ : 11*11, stride=4 / 3*3 pooling, stride=2
dropout: 0.5
batch size: 128
SGD Momentum : 0.9
Learning rate : 1e-2
L2 weight decay : 5e-4
7 CNN ensemble : 18.2% -> 15.4%
* VGG, GoogleNet ๋ถํฐ๋ layer๊ฐ ๋ ๊น๊ฒ ์์ด๊ธฐ ์์ํจ.
VGG
- ๋คํธ์ํฌ๋ฅผ 16-19 ์ธต๊น์ง ์์ ์ฑ๋ฅ์ ๋์
Conv, max-pooling ๋ฐ๋ณต๋๋ ๊ตฌ์กฐ
Conv: 3*3 filter, stride=1
Max-pool: 2*2, stride=2
* ์ด์ ์๋ ์ฃผ๋ก 5*5์ ํํฐ๋ฅผ ์ฌ์ฉํ ๋ฐ๋ฉด, 3*3์ ์์ ํํฐ๋ก ํ๋ผ๋ฏธํฐ ์๋ฅผ ์ค์ด๊ณ ์ธต์ ๊น๊ฒ ์์์ ์ฑ๋ฅ์ ํฅ์ํ์๋ค.
* Layer๊ฐ ๊น์ด์ง๋ฉด์, ๋ค์์ activation func์ ํต๊ณผํ ์ ์์ผ๋ฏ๋ก ๋ ๋ง์ non-linearity๋ฅผ ์ค ์ ์๊ฒ ๋๋ค.
* padding์ ํตํด network๊ฐ ๊น์ด์ ธ๋ ์ด๋ฏธ์ง ์ฌ์ด์ฆ๋ฅผ ์ ์งํ ์ ์๋ค.
GoogleNet
- 22 layer
- "Inception" module
- FC Layer X
* Inception module: ๊ฐ์ ์ ๋ ฅ์ ๋ฐ๋ ์ฌ๋ฌ ๊ฐ์ ํํฐ๋ค์ด ๋ณ๋ ฌ์ ์ผ๋ก ์กด์ฌ -> ๊ฒฐ๊ณผ๋ฅผ ํฉ์นจ
* ๊ณ์ฐ๋ ๋ฌธ์ ๋ฐ์ -> 1*1 Conv layer์ฌ์ฉ -> input depth๊ฐ ์ค์ด๋๋ ํจ๊ณผ "Bottelneck layer"
* ์ค๊ฐ ์ค๊ฐ gradient๋ฅผ ๋ฃ์ด back propagation์ด ์งํ๋์ด gradient vanishing ๋ฌธ์ ๊ฐ ๋ฐ์ํ์ง ์๋๋ก ํจ.
Resnet
- ์ธต์ด ๋งค์ฐ ๋ง์ ๊ฒ์ด ํน์ง! -> 152 layers
- Residual connection์ผ๋ก degration (์ฑ๋ฅ์ ํ) ํด๊ฒฐ
* Degradatopm: ๋คํธ์ํฌ์ ๊ตฌ์กฐ๊ฐ ๊น์ผ๋ฉด ๊น์์๋ก ์ด๋ ์๊ฐ ๊ทธ ๋ชจ๋ธ์ ํ์ต์ด ์ ์๋๋ค๋ ๊ฒ.
* Skip Connection์ผ๋ก degradation ๋ฌธ์ ๋ฅผ ํด๊ฒฐํจ
* ๊ธฐ์กด layer๋ค์ target data H(x)๋ฅผ ์ป๋ ๊ฒ์ด ๋ชฉ์ ์ด์์ผ๋, residual block์ output์ input data๋ x๋ฅผ ๋ํด์ F(x) + x๋ฅผ ์ต์ํํ๋ ๊ฒ์ ๋ชฉํ๋ก ํจ.
* F(x)๋ฅผ ์ต์ํ ํ๋ค๋ ๊ฒ์ H(x)-x๋ฅผ 0๊ณผ ๊ฐ๊น๊ฒ ๋ง๋ค์ด์ค๋ค๋ ๋ป, ์ด๋ H(x)-x๋ฅผ residual์ด๋ผ๊ณ ํจ.(์์ฐจ)
* batch normalization
SENet
- Squeeze and excitation networks
- ๊ธฐ์กด CNN -> ์ค์ํ ์ ๋ณด์ ์ง์คํ ์ ์๋ attention๊ธฐ๋ฅ์ด ์์์.
- attentioni ๋ชจ๋ : squeeze + excitation ์ถ๊ฐํ์!
* Squeeze : Global information embedding
- ์ค์ ์ ๋ณด ์ถ์ถ ๊ฐ๋ (Gloval Average Pooling ์ฌ์ฉ) / channel descriptor๋ก ์์ถ
* Excitation : ์ค์๋ ๊ณ์ฐํ๊ธฐ / ์ฑ๋ ๊ฐ ์์กด์ฑ ๊ณ์ฐ / FC -> ReLU -> FC -> sigmoid -> 0-1์ฌ์ด๋ก Attention Score๋ํ๋.
'AI > Classification' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[๋ ผ๋ฌธ๋ฆฌ๋ทฐ] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows (0) | 2025.02.12 |
---|---|
[๋ ผ๋ฌธ๋ฆฌ๋ทฐ] ViT: Vision Transformer (0) | 2025.02.12 |
- Total
- Today
- Yesterday
- C์ธ์ด
- SQL
- ๋ ผ๋ฌธ๋ฆฌ๋ทฐ
- ๋๋ฆผ๋ถ์ค
- SKTECHSUMMIT
- ๋ ผ๋ฌธ์ฝ๊ธฐ
- 2d-gs
- 3d-gs
- MYSQL
- ์ฝํ ์ค๋น
- Aimers
- gs๋ ผ๋ฌธ
- AIRUSH
- ํ์ด์ฌ์ฝํ
- ์คํ ์ด๋ธ๋ํจ์
- ํ์ด์ฌ
- Paper review
- lgaimers
- AIRUSH2023
- gan
- Gaussian Splatting
- CLOVAX
- dreambooth
- ๋ ผ๋ฌธ
- AI์ปจํผ๋ฐ์ค
- ์ฝ๋ฉ์๋ฌ
- ์ฝ๋ฉ๊ณต๋ถ
- ํ ํฌ์๋ฐ
- ํ๋ก๊ทธ๋๋จธ์ค
- ์ปดํจํฐ๋น์
์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |