自助式數據準備解決方案

首頁

>

產品新知

> 內文

2023.11.07


資料整理是多數現代資料科學活動最耗時的部分之一,龐雜的原始資料也讓人不知從何開始。RapidMiner原廠整理了以下注意要點:
資料遮罩:各國關於個資保護的法令推陳出新,企業運用客戶資料時也須多加注意。如何將身份證字號、姓名等核心個資轉換,避免分析人員外洩個資,又不破壞資料的分析價值將會是資料整理的一大挑戰。
自動化程序:將固定不變的資料處理流程自動化可以節省許多時間,也可以留下紀錄供錯誤分析使用。但要注意資料隨時在改變,過度依賴先前建立好的自動化流程可能會無法優先挖掘到資料的錯誤。 互通性:資料整理完成後,若還要匯出成CSV檔,再匯入分析軟體顯然就多此一舉。最好是選擇內建的資料處理工具,或是有適當的連接器避免另存檔案的麻煩。

來源:Guide to Self-Service Data Preparation