Incremental Class Distribution Balancing

Class imbalance poses a critical challenge in supervised classification, as models often favor the majority class at the expense of the minority class, particularly relevant in applications such as fraud detection and medical diagnostics. This paper proposes an incremental oversampling strategy that iteratively generates and selects synthetic minority class samples based on effective F1-Score gains. The method was tested on 21 binary imbalanced datasets (from UCI, KEEL, and Kaggle repositories) using six classifiers (kNN, DTree, RF, NB, LogReg, and SVM) with 5-fold stratified cross-validation. Results demonstrate the statistical superiority of the incremental approach over traditional oversampling (Wilcoxon test, p<0.05 in 12/21 datasets), achieving victories in up to 29/30 scenarios (abalone dataset). The incremental strategy obtained a superior average F1-Score in 71% of datasets, confirming its robustness across classifiers and imbalance ratios. We concluded that incremental oversampling constitutes a promising alternative for imbalanced classification, improving synthetic sample quality.

Rafael Nink de Carvalho
Instituto Federal de Educação, Ciência e Tecnologia de Rondônia
Brazil

Simone de Lima Martins
Universidade Federal Fluminense
Brazil

Alexandre Plastino de Carvalho
Universidade Federal Fluminense
Brazil