Implemented Cross Validation & Early Stopping (#38)

2025-11-04 06:16:05 +08:00 · 2021-04-12 04:16:23 +02:00
parent 7c7652eed8
commit 4dede30346
2 changed files with 273 additions and 0 deletions
--- a/labml_nn/cnn/cross_validation.py
+++ b/labml_nn/cnn/cross_validation.py
@ -0,0 +1,65 @@
+
+import torch
+import torchvision
+import torchvision.transforms as transforms
+from torch.utils.data.sampler import SubsetRandomSampler
+import matplotlib.pyplot as plt
+import numpy as np
+import torch.optim as optim
+from torchsummary import summary
+import torch.nn as nn
+
+# from models.mlp import MLP
+# from utils.utils import *
+# from utils.train_dataset import *
+#from nutsflow import Take, Consume
+#from nutsml import *
+from utils.dataloader import *
+from models.cnn import CNN
+from utils.train import Trainer
+
+from utils.cv_train import *
+
+# Check if GPU is available
+device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
+print("Device:  " + str(device))
+
+# Cifar 10 Datasets location
+save='./data/Cifar10'
+
+# Transformations train
+transform_train = transforms.Compose(
+        [transforms.ToTensor(),
+         transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])
+
+# Load train dataset and dataloader
+trainset = LoadCifar10DatasetTrain(save, transform_train)
+trainloader = torch.utils.data.DataLoader(trainset, batch_size=64,
+                                          shuffle=True, num_workers=4)
+
+# Transformations test (for inference later)
+transform_test = transforms.Compose(
+        [transforms.ToTensor(),
+         transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])
+
+# Load test dataset and dataloader (for inference later)
+testset = LoadCifar10DatasetTest(save, transform_test)
+testloader = torch.utils.data.DataLoader(testset, batch_size=64,
+                                         shuffle=False, num_workers=4)
+
+# Specify loss function
+cost = nn.CrossEntropyLoss()
+
+epochs=25  #10
+splits = 4 #5
+
+# Training - Cross-validation
+history = cross_val_train(cost, trainset, epochs, splits, device=device)
+
+# Inference
+best_model, best_val_accuracy = retreive_best_trial()
+print("Best Validation Accuracy = %.3f"%(best_val_accuracy))
+
+# Testing
+accuracy = Test(best_model, cost, testloader, device=device)
+print("Test Accuracy = %.3f"%(accuracy['val_acc']))
--- a/labml_nn/cnn/utils/cv_train.py
+++ b/labml_nn/cnn/utils/cv_train.py
@ -0,0 +1,208 @@
+#!/bin/python
+
+import torch
+
+from torch.utils.data import Subset
+
+from sklearn.model_selection import KFold
+from torch.utils.data.sampler import SubsetRandomSampler
+from models.cnn import GetCNN
+from torchsummary import summary
+import torch.optim as optim
+import os
+
+from torch.utils.tensorboard import SummaryWriter
+
+from datetime import datetime
+from glob import glob
+
+
+
+def cross_val_train(cost, trainset, epochs, splits, device=None):
+
+    patience = 4
+    history = []
+    kf = KFold(n_splits=splits, shuffle=True)
+    batch_size = 64
+    now = datetime.now()
+    date_time = now.strftime("%d-%m-%Y_%H:%M:%S")
+    directory = os.path.dirname('./save/tensorboard-%s/'%(date_time))
+
+    if not os.path.exists(directory):
+        os.mkdir(directory)
+
+    for fold, (train_index, test_index) in enumerate(kf.split(trainset.data, trainset.targets)): #dataset required - compelete training set
+        comment = f'{directory}/fold-{fold}'
+        writer = SummaryWriter(log_dir=comment)
+
+        train_sampler = SubsetRandomSampler(train_index)
+        valid_sampler = SubsetRandomSampler(test_index)
+        traindata = torch.utils.data.DataLoader(trainset, batch_size=batch_size, sampler=train_sampler,
+                                                   num_workers=2)
+        valdata = torch.utils.data.DataLoader(trainset, batch_size=batch_size, sampler=valid_sampler,
+                                                   num_workers=2)
+
+        net = GetCNN()
+        net.to(device)
+        if fold == 0: #Printing model detials for the first time
+            summary(net, (3, 32, 32))
+
+
+        # Specify optimizer
+        optimizer = optim.Adam(net.parameters(), lr=0.0005, betas=(0.9, 0.95))
+        losses = torch.zeros(epochs)
+        accuracies = torch.zeros(epochs)
+        min_loss = None
+        count = 0
+        for epoch in range(epochs):
+            valid_loss = 0
+            running_loss = 0.0
+            epoch_loss = 0.0
+            train_loss = torch.zeros(epochs)
+            train_steps = 0.0
+
+            # training steps
+            net.train()  # Enable Dropout
+            for i, data in enumerate(traindata, 0):
+                # Get the inputs; data is a list of [inputs, labels]
+                if device:
+                    images, labels = data[0].to(device), data[1].to(device)
+                else:
+                    images, labels = data
+
+                # Forward + backward + optimize
+                outputs = net(images)
+                loss = cost(outputs, labels)
+                loss.backward()
+                optimizer.step()
+                # Zero the parameter gradients
+                optimizer.zero_grad()
+
+                # Print loss
+                running_loss += loss.item()
+                epoch_loss += loss.item()
+                train_loss[epoch] += loss.item()
+                train_steps += 1
+
+            loss_train = train_loss[epoch] / train_steps
+
+            # Validation
+            loss_accuracy = Test(net, cost, valdata, device)
+
+            losses[epoch] = loss_accuracy['val_loss']
+            accuracies[epoch] = loss_accuracy['val_acc']
+            print("Fold %d, Epoch %d, Train Loss %.4f Validation Loss: %.4f, Validation Accuracy: %.4f" % (fold+1, epoch+1, loss_train, losses[epoch], accuracies[epoch]))
+
+            # TensorBoard
+            info = {
+                "Loss/train": loss_train,
+                "Loss/valid": losses[epoch],
+                "Accuracy/valid": accuracies[epoch]
+                }
+
+            for tag, item in info.items():
+                writer.add_scalar(tag, item, global_step=epoch)
+
+            if min_loss == None:
+                min_loss = losses[epoch]
+
+            # Early stopping refered from https://github.com/Bjarten/early-stopping-pytorch/blob/master/pytorchtools.py
+            if losses[epoch] > min_loss:
+                print("Epoch loss: %.4f, Min loss: %.4f"%(losses[epoch], min_loss))
+                count += 1
+                print(f'Early stopping counter: {count} out of {patience}')
+                if count >= patience:
+                    print(f'############### EarlyStopping ##################')
+                    break
+
+            # Saving best model
+            elif losses[epoch] <= min_loss:
+                count = 0
+                save_best_model({
+                    'epoch': epoch,
+                    'state_dict': net.state_dict(),
+                    'optimizer': optimizer.state_dict(),
+                    'accuracy' : accuracies[epoch]
+                }, fold=fold, date_time=date_time)
+                min_loss = losses[epoch]
+
+            history.append({'val_loss': losses[epoch], 'val_acc': accuracies[epoch]})
+    return history
+
+def save_best_model(state, fold, date_time):
+    directory = os.path.dirname("./save/CV_models-%s/"%(date_time))
+    if not os.path.exists(directory):
+        os.mkdir(directory)
+    torch.save(state, "%s/fold-%d-model.pt" % (directory, fold))
+
+def retreive_best_trial():
+    PATH = "./save/"
+    best_model = GetCNN()
+
+    content = os.listdir(PATH)
+    latest_time = 0
+    for item in content:
+        if 'CV_models' in item:
+            foldername = os.path.join(PATH, item)
+            tm = os.path.getmtime(foldername)
+            if tm > latest_time:
+                latest_folder = foldername
+
+    file_type = '/*.pt'
+    files = glob(latest_folder + file_type)
+
+    accuracy = 0
+    for model_file in files:
+        checkpoint = torch.load(model_file)
+        if checkpoint['accuracy'] > accuracy:
+            best_model.load_state_dict(checkpoint['state_dict'])
+            best_val_accuracy = checkpoint['accuracy']
+            # Test(best_model,)
+
+    return best_model, best_val_accuracy
+
+def val_step(net, cost, images, labels):
+    # forward pass
+    output = net(images)
+    # loss in batch
+    loss = cost(output, labels)
+
+    # update validation loss
+    _, preds = torch.max(output, dim=1)
+    acc = torch.tensor(torch.sum(preds == labels).item() / len(preds))
+    acc_output = {'val_loss': loss.detach(), 'val_acc': acc}
+    return acc_output
+
+# Test over testloader/valloader loop
+def Test(net, cost, testloader, device):
+    # Disable Dropout
+    net.eval()
+
+    # Bookkeeping
+    correct = 0.0
+    total = 0.0
+    loss = 0.0
+    train_steps = 0.0
+
+    # Infer the model
+    with torch.no_grad():
+        for data in testloader:
+            if device:
+                images, labels = data[0].to(device), data[1].to(device)
+            else:
+                images, labels = data[0], data[1]
+
+            outputs = net(images)
+            # loss in batch
+            loss += cost(outputs, labels)
+            train_steps+=1
+            # losses[epoch] += loss.item()
+
+            _, predicted = torch.max(outputs.data, 1)
+            total += labels.size(0)
+            correct += (predicted == labels).sum().item()
+        loss = loss/train_steps
+
+    accuracy = correct / total
+    loss_accuracy = {'val_loss': loss, 'val_acc': accuracy} #accuracy
+    return loss_accuracy