2019年5月1日 星期三

機器學習 百日馬拉松 - Day 6. EDA : Outlier 及處理

Day6 作業:可參考 my Github - Day_006_HW.ipynb
Day 6 主要是要了解什麼是 outlier (離群值 or 例外值),其實就跟字面上意思差不多,ex.大部分的數據顯示蘋果價錢在每個國家都是10~30台幣,但是data中紀錄著某城市中的蘋果一顆要5000台幣。那這筆資料也許不太合理,我們可以當作是 outlier 來處理。
更詳細的 outlier 解釋可以寫一本書了,我就不多做解釋。經過 google 後可以大概了解, outlier 大致可分為以下三種類型:
1.Global outlier
2.Contextual(conditionl) outlier
3.Collective outlier
由於工作忙碌,每日代碼練習我就不轉貼了,到 my GitHub 看代碼吧 :smiley:在後續的心得,我都直接寫在作業裡面喔。

沒有留言:

張貼留言