目的:利用邏輯斯迴歸與隨機森林模型建立分類問題模型
資料:German Credit
說明:利用每個人的信用風險(好、壞)及20個解釋變數建立分類模型,並進行模型評估
參考https://mlr3gallery.mlr-org.com/posts/2020-03-11-basics-german-credit/


1 資料


1.1 匯入相關套件

首先匯入R語言機器學習套件mlr3verse與mlr3learners,以及data.table、ggplot。

library("mlr3verse")
## Loading required package: mlr3
library("mlr3learners")
library("data.table")
library("ggplot2")


1.2 匯入資料

由rchallenge套件取得範例資料german。

library("rchallenge")
data("german", package = "rchallenge")


1.3 探索資料

利用dim()與str()觀察資料筆數與型態,資料集內共有1000筆資料,21個變數(欄位)。 其中,反應變數(被預測的變數)為二元變數credit_risk (只有good或bad兩類), 每個人會依其信用風險被分為兩類。此外,也可利用skimr套件查看各變數統計資訊。

dim(german)
## [1] 1000   21
str(german)
## 'data.frame':    1000 obs. of  21 variables:
##  $ status                 : Factor w/ 4 levels "no checking account",..: 1 1 2 1 1 1 1 1 4 2 ...
##  $ duration               : int  18 9 12 12 12 10 8 6 18 24