網頁

2019年7月29日 星期一

Machine Learning: Dummy variable trap in Regression Models

在學習虛擬變量陷阱(dummy variable trap)之前,讓我們先了解實際的虛擬變量(dummy variable)是什麼。

Dummy Variable in Regression Models: 

在統計學中,特別是在回歸模型(regression models)中,我們處理各種類型的數據。數據可以是定量的(數值)或定性的(分類)。數值數據可以在回歸模型中輕鬆處理,但我們不能直接使用分類數據,需要以某種方式進行轉換。

為了將分類屬性轉換為數字屬性,我們可以使用標籤編碼(label encoding)程序(標籤編碼為每個數據類別分配一個唯一的整數)。但是這個過程並不是唯一合適的傳統的做法,因此,在標籤編碼之後的回歸模型中使用了一個熱編碼(one hot encoding)。這使我們能夠根據分類屬性中存在的類別的數量創建新屬性,即如果分類屬性中有n個類別,則將創建n個新屬性。創建的這些屬性稱為Dummy Variables。因此,虛擬變量是回歸模型中分類數據的“取代”變量。

這些虛擬變量將使用一個熱編碼創建,每個屬性的值為0或1,表示該屬性的存在與否。

Dummy Variable Trap: 
虛擬變量陷阱是一種存在高度相關的屬性(多重線性, Multicollinear),一個變量可以預測其他屬性的值。 當我們使用一個熱編碼來處理分類數據時,可以藉助其他虛擬變量來預測一個虛擬變量(屬性)。 因此,一個虛擬變量與其他虛擬變量高度相關。 對回歸模型使用所有虛擬變量會導致虛擬變量陷阱。 因此,應該設計回歸模型,排除一個虛擬變量。

For Example
讓我們考慮性別具有兩個值男性(0或1)和女性(1或0)的情況。 包括虛擬變量可以導致冗餘,因為如果有一個人在這種情況下不是男性,那麼另一個人一定是女性,因此,我們不需要在回歸模型中使用這兩個變量。 這將保護我們免受虛擬變量陷阱的影響。



參考
https://www.geeksforgeeks.org/ml-dummy-variable-trap-in-regression-models/

沒有留言:

張貼留言