pandas數據合併:merge與concat基礎操作,新手也能學

本文介紹pandas的`merge`和`concat`兩個數據合併工具,適合新手快速掌握。 **concat**:無關聯鍵,直接拼接,分行/列方向。行拼接(`axis=0`)適合結構相同表(如多月份數據),需注意用`ignore_index=True`重置索引避免重複;列拼接(`axis=1`)需行數一致,用於按行標識合併(如學生信息+成績表)。 **merge**:基於共同鍵(如姓名、ID)合併,類似SQL JOIN,支持四種方式:`inner`(默認,保留共同鍵)、`left`(保留左表)、`right`(保留右表)、`outer`(保留所有)。鍵名不同時用`left_on`/`right_on`指定,默認合併方式爲`inner`。 **關鍵區別**:concat無鍵直接拼接,merge按鍵匹配。新手需注意:concat列拼接行數需一致,merge用`how`參數控制合併範圍,避免索引重複和鍵名不匹配問題。

閱讀全文
pandas索引(Index)入門:輕鬆搞定數據排序與重命名

### pandas索引(Index)詳解 索引是pandas中標識數據位置和內容的關鍵,類似Excel的行號/列標題,是數據的“身份證”,核心作用包括快速定位數據、支持排序和合並操作。 **數據排序**: - **Series排序**:按索引排序用`sort_index()`(默認升序,可設`ascending=False`降序);按值排序用`sort_values()`(默認升序,同理可降序)。 - **DataFrame排序**:按列值排序用`sort_values(by=列名)`,按行索引排序用`sort_index()`。 **重命名索引**: - 用`rename()`方法修改行/列標籤,如`df.rename(index={舊名:新名})`或`df.rename(columns={舊名:新名})`; - 直接賦值修改:`df.index = [新索引]`或`df.columns = [新列名]`,需保證長度一致。 **注意事項**: - 區分行索引(`df.index`)和列索引(`df.columns`); - 修改索引時

閱讀全文
pandas保姆級教程:缺失值處理從入門到實踐

這篇文章介紹了數據分析中缺失值的處理方法。缺失值指數據集中無有效值,pandas中以`NaN`表示。處理前需先檢查:`isnull()`標記缺失值,`isnull().sum()`統計各列缺失數,`info()`查看整體缺失分佈。 處理策略分刪除和填充:刪除用`dropna()`,按行(默認)或列刪除含缺失值的記錄;填充用`fillna()`,包括固定值(如0)、統計量(均值/中位數適合數值,衆數適合分類)、向前/向後填充(`ffill/bfill`,適用於時間序列)。 案例以電商訂單數據爲例,先檢查缺失值,再用均值填充“金額”列,衆數填充“支付方式”列。處理核心步驟爲:檢查缺失→選策略(極少值刪除,多值或關鍵數據填充)→驗證結果,需結合數據特點靈活選擇方法。

閱讀全文