目的:利用邏輯斯迴歸與隨機森林模型建立分類問題模型
資料:German Credit
說明:利用每個人的信用風險(好、壞)及20個解釋變數建立分類模型,並進行模型評估
參考: https://mlr3gallery.mlr-org.com/posts/2020-03-11-basics-german-credit/
首先匯入R語言機器學習套件mlr3verse與mlr3learners,以及data.table、ggplot。
library("mlr3verse")
## Loading required package: mlr3
library("mlr3learners")
library("data.table")
library("ggplot2")
由rchallenge套件取得範例資料german。
library("rchallenge")
data("german", package = "rchallenge")
利用dim()與str()觀察資料筆數與型態,資料集內共有1000筆資料,21個變數(欄位)。 其中,反應變數(被預測的變數)為二元變數credit_risk (只有good或bad兩類), 每個人會依其信用風險被分為兩類。此外,也可利用skimr套件查看各變數統計資訊。
dim(german)
## [1] 1000 21
str(german)
## 'data.frame': 1000 obs. of 21 variables:
## $ status : Factor w/ 4 levels "no checking account",..: 1 1 2 1 1 1 1 1 4 2 ...
## $ duration : int 18 9 12 12 12 10 8 6 18 24