pandas保姆級教程:缺失值處理從入門到實踐
這篇文章介紹了數據分析中缺失值的處理方法。缺失值指數據集中無有效值,pandas中以`NaN`表示。處理前需先檢查:`isnull()`標記缺失值,`isnull().sum()`統計各列缺失數,`info()`查看整體缺失分佈。 處理策略分刪除和填充:刪除用`dropna()`,按行(默認)或列刪除含缺失值的記錄;填充用`fillna()`,包括固定值(如0)、統計量(均值/中位數適合數值,衆數適合分類)、向前/向後填充(`ffill/bfill`,適用於時間序列)。 案例以電商訂單數據爲例,先檢查缺失值,再用均值填充“金額”列,衆數填充“支付方式”列。處理核心步驟爲:檢查缺失→選策略(極少值刪除,多值或關鍵數據填充)→驗證結果,需結合數據特點靈活選擇方法。
閱讀全文零基礎學pandas:手把手教你讀取CSV文件
這篇文章介紹了學習pandas處理數據的入門步驟,核心是讀取CSV文件並基礎操作數據。首先,pandas是數據處理的“管家”,讀取CSV是數據分析第一步。步驟包括:安裝pandas(pip install,Anaconda/Jupyter預裝可跳過)並導入(import pandas as pd);用pd.read_csv()讀取CSV生成DataFrame;查看數據用head()/tail()預覽、info()檢查類型和缺失值、describe()統計數值;處理特殊格式如中文亂碼(encoding)、分隔符(sep)、無表頭(names)。文章最後總結已掌握的基礎技能,指出這是數據處理的開始,後續可學習篩選、清洗等進階操作。
閱讀全文