pandas数据合并:merge与concat基础操作,新手也能学
本文介绍pandas的`merge`和`concat`两个数据合并工具,适合新手快速掌握。 **concat**:无关联键,直接拼接,分行/列方向。行拼接(`axis=0`)适合结构相同表(如多月份数据),需注意用`ignore_index=True`重置索引避免重复;列拼接(`axis=1`)需行数一致,用于按行标识合并(如学生信息+成绩表)。 **merge**:基于共同键(如姓名、ID)合并,类似SQL JOIN,支持四种方式:`inner`(默认,保留共同键)、`left`(保留左表)、`right`(保留右表)、`outer`(保留所有)。键名不同时用`left_on`/`right_on`指定,默认合并方式为`inner`。 **关键区别**:concat无键直接拼接,merge按键匹配。新手需注意:concat列拼接行数需一致,merge用`how`参数控制合并范围,避免索引重复和键名不匹配问题。
阅读全文pandas索引(Index)入门:轻松搞定数据排序与重命名
### pandas索引(Index)详解 索引是pandas中标识数据位置和内容的关键,类似Excel的行号/列标题,是数据的“身份证”,核心作用包括快速定位数据、支持排序和合并操作。 **数据排序**: - **Series排序**:按索引排序用`sort_index()`(默认升序,可设`ascending=False`降序);按值排序用`sort_values()`(默认升序,同理可降序)。 - **DataFrame排序**:按列值排序用`sort_values(by=列名)`,按行索引排序用`sort_index()`。 **重命名索引**: - 用`rename()`方法修改行/列标签,如`df.rename(index={旧名:新名})`或`df.rename(columns={旧名:新名})`; - 直接赋值修改:`df.index = [新索引]`或`df.columns = [新列名]`,需保证长度一致。 **注意事项**: - 区分行索引(`df.index`)和列索引(`df.columns`); - 修改索引时
阅读全文pandas保姆级教程:缺失值处理从入门到实践
这篇文章介绍了数据分析中缺失值的处理方法。缺失值指数据集中无有效值,pandas中以`NaN`表示。处理前需先检查:`isnull()`标记缺失值,`isnull().sum()`统计各列缺失数,`info()`查看整体缺失分布。 处理策略分删除和填充:删除用`dropna()`,按行(默认)或列删除含缺失值的记录;填充用`fillna()`,包括固定值(如0)、统计量(均值/中位数适合数值,众数适合分类)、向前/向后填充(`ffill/bfill`,适用于时间序列)。 案例以电商订单数据为例,先检查缺失值,再用均值填充“金额”列,众数填充“支付方式”列。处理核心步骤为:检查缺失→选策略(极少值删除,多值或关键数据填充)→验证结果,需结合数据特点灵活选择方法。
阅读全文