pandas數據統計:5個常用函數幫你快速掌握基礎分析
pandas是Python處理表格數據的強大工具,文章介紹5個基礎統計函數,助初學者快速掌握數據分析技能。 **sum()**:計算總和,自動忽略缺失值(NaN),`axis=1`可按行求和,用於統計總量(如總分)。 **mean()**:求平均值,反映集中趨勢,但易受極端值影響,適合無極端值場景。 **median()**:計算中位數,抗極端值干擾,更能反映“大多數數據真實水平”。 **max()/min()**:分別返回最大/最小值,用於統計極值(如最高分、最低分)。 **describe()**:一站式統計,輸出count(數量)、mean(均值)、std(標準差)、分位數等,全面瞭解數據分佈與波動。 這些函數可回答“總量、平均、中間水平、極值”等基礎問題,是數據分析的“基本功”。後續可進階學習分組統計(groupby)等技能。
閱讀全文pandas Series入門:從理解到實戰操作,新手也能懂
pandas的Series是帶標籤的一維數組,包含數據與索引,是數據處理基礎結構。創建方式多樣:從列表(默認0,1...索引)、字典(鍵爲索引)、標量+長度(重複值),也可自定義索引(如日期、字符串)。核心屬性有values(數據數組)、index(標籤)、name(名稱)、shape(形狀)。索引操作支持標籤訪問(loc)、位置訪問(iloc),切片時標籤切片含結束標籤,位置切片不含。數據操作含sum、mean等統計方法,及布爾條件篩選。實戰中可用於時間序列或標籤化數據(如客流量分析),通過索引快速定位、統計與篩選,掌握索引操作是數據處理的關鍵。
閱讀全文