stem/AI/Neural Networks/CNN/CNN.md

## Before 2010s
- Data hungry
	- Need lots of training data
- Processing power
- Niche
	- No-one cared/knew about CNNs
## After
- ImageNet
	- 16m images, 1000 classes
- GPUs
	- General processing GPUs
	- CUDA
- NIPS/ECCV 2012
	- Double digit % gain on ImageNet accuracy

# Full Connected
Dense
- Move from convolutional operations towards vector output
- Stochastic drop-out
	- Sub-sample channels and only connect some to dense layers

# As a Descriptor
- Most powerful as a deeply learned feature extractor
- Dense classifier at the end isn't fantastic
	- Use SVM to classify prior to penultimate layer

![[cnn-descriptor.png]]

# Finetuning
- Observations
	- Most CNNs have similar weights in conv1
	- Most useful CNNs have several conv layers
		- Many weights
		- Lots of training data
	- Training data is hard to get
		- Labelling
- Reuse weights from other network
- Freeze weights in first 3-5 conv layers
	- Learning rate = 0
	- Randomly initialise remaining layers
	- Continue with existing weights

![[fine-tuning-freezing.png]]
# Training
- Validation & training loss
- Early
	- Under-fitting
	- Training not representative
- Later
	- Overfitting
- V.loss can help adjust learning rate
	- Or indicate when to stop training

![[under-over-fitting.png]]
vault backup: 2023-05-26 18:29:17 Affected files: .obsidian/graph.json .obsidian/workspace-mobile.json .obsidian/workspace.json STEM/AI/Neural Networks/Activation Functions.md STEM/AI/Neural Networks/CNN/CNN.md STEM/AI/Neural Networks/CNN/Convolutional Layer.md STEM/AI/Neural Networks/CNN/Examples.md STEM/AI/Neural Networks/CNN/GAN/CycleGAN.md STEM/AI/Neural Networks/CNN/GAN/DC-GAN.md STEM/AI/Neural Networks/CNN/GAN/GAN.md STEM/AI/Neural Networks/CNN/GAN/StackGAN.md STEM/AI/Neural Networks/CNN/GAN/cGAN.md STEM/AI/Neural Networks/CNN/Inception Layer.md STEM/AI/Neural Networks/CNN/Max Pooling.md STEM/AI/Neural Networks/CNN/Normalisation.md STEM/AI/Neural Networks/CV/Data Manipulations.md STEM/AI/Neural Networks/CV/Datasets.md STEM/AI/Neural Networks/CV/Filters.md STEM/AI/Neural Networks/CV/Layer Structure.md STEM/AI/Neural Networks/Weight Init.md STEM/img/alexnet.png STEM/img/cgan-example.png STEM/img/cgan.png STEM/img/cnn-cv-layer-arch.png STEM/img/cnn-descriptor.png STEM/img/cnn-normalisation.png STEM/img/code-vector-math-for-control-results.png STEM/img/cvmfc.png STEM/img/cyclegan-results.png STEM/img/cyclegan.png STEM/img/data-aug.png STEM/img/data-whitening.png STEM/img/dc-gan.png STEM/img/fine-tuning-freezing.png STEM/img/gabor.png STEM/img/gan-arch.png STEM/img/gan-arch2.png STEM/img/gan-results.png STEM/img/gan-training-discriminator.png STEM/img/gan-training-generator.png STEM/img/googlenet-auxilliary-loss.png STEM/img/googlenet-inception.png STEM/img/googlenet.png STEM/img/icv-pos-neg-examples.png STEM/img/icv-results.png STEM/img/inception-layer-arch.png STEM/img/inception-layer-effect.png STEM/img/lenet-1989.png STEM/img/lenet-1998.png STEM/img/max-pooling.png STEM/img/stackgan-results.png STEM/img/stackgan.png STEM/img/under-over-fitting.png STEM/img/vgg-arch.png STEM/img/vgg-spec.png STEM/img/word2vec.png 2023-05-26 18:29:17 +01:00			`## Before 2010s`
			`- Data hungry`
			`- Need lots of training data`
			`- Processing power`
			`- Niche`
			`- No-one cared/knew about CNNs`
			`## After`
			`- ImageNet`
			`- 16m images, 1000 classes`
			`- GPUs`
			`- General processing GPUs`
			`- CUDA`
			`- NIPS/ECCV 2012`
			`- Double digit % gain on ImageNet accuracy`

			`# Full Connected`
			`Dense`
			`- Move from convolutional operations towards vector output`
			`- Stochastic drop-out`
			`- Sub-sample channels and only connect some to dense layers`

			`# As a Descriptor`
			`- Most powerful as a deeply learned feature extractor`
			`- Dense classifier at the end isn't fantastic`
			`- Use SVM to classify prior to penultimate layer`

			`![[cnn-descriptor.png]]`

			`# Finetuning`
			`- Observations`
			`- Most CNNs have similar weights in conv1`
			`- Most useful CNNs have several conv layers`
			`- Many weights`
			`- Lots of training data`
			`- Training data is hard to get`
			`- Labelling`
			`- Reuse weights from other network`
			`- Freeze weights in first 3-5 conv layers`
			`- Learning rate = 0`
			`- Randomly initialise remaining layers`
			`- Continue with existing weights`

			`![[fine-tuning-freezing.png]]`
			`# Training`
			`- Validation & training loss`
			`- Early`
			`- Under-fitting`
			`- Training not representative`
			`- Later`
			`- Overfitting`
			`- V.loss can help adjust learning rate`
			`- Or indicate when to stop training`

			`![[under-over-fitting.png]]`