目的:說明如何進行決策樹超參數調校
資料:Pima Indian Diabetes
說明:在機器學習的模型中,除了模型參數要估計之外, 也有一些無需估計(大多有預設值),但也會影響模型結果與預測效力的參數, 這些參數稱為超參數(hyperparameter)。 由於模型估計及預測效力會受超參數數值的影響, 因此通常會建議設定適合的超參數,使得模型有較好的預測效力。 當我們嘗試設定以不同的超參數建模,這種過程稱為模型超參數調校(tuning)。
參考https://mlr3book.mlr-org.com/optimization.html


以下進行超參數調校過程說明。

1 資料


1.1 匯入相關套件

首先匯入R語言機器學習套件mlr3verse。

library("mlr3verse")
## Loading required package: mlr3

匯入繪圖套件ggplot2。

library("ggplot2")


1.2 匯入資料

匯入Pima Indian Diabetes資料集(資料已封裝在任務物件中)。

task = tsk("pima")
print(task)
## <TaskClassif:pima> (768 x 9)
## * Target: diabetes
## * Properties: twoclass
## * Features (8):
##   - dbl (8): age, glucose, insulin, mass, pedigree, pregnant, pressure,
##     triceps

取得TaskClassif的任務物件,內含資料集pima,目標二元變數設定為diabetes。 若要進一步分析資料集,以data()方法取得資料集。

pima = task$data()


1.3 探索資