App下載

Python3數(shù)據(jù)分析實(shí)戰(zhàn):Pandas和NumPy

蘿莉的小草莓 2023-06-20 14:28:34 瀏覽數(shù) (2148)
反饋

數(shù)據(jù)分析是當(dāng)今最熱門(mén)的領(lǐng)域之一,而Python作為一種流行的編程語(yǔ)言,在數(shù)據(jù)分析中也得到了廣泛應(yīng)用。本文將介紹如何使用Python 3中的兩個(gè)重要的庫(kù)Pandas和NumPy進(jìn)行數(shù)據(jù)分析實(shí)戰(zhàn)。

一、Pandas庫(kù)介紹

Pandas是基于NumPy的一個(gè)數(shù)據(jù)處理庫(kù),提供了靈活易用的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)分析工具,能夠快速便捷地完成大量常見(jiàn)數(shù)據(jù)任務(wù),例如數(shù)據(jù)清洗、整理、轉(zhuǎn)換、分組聚合等。下面我們通過(guò)實(shí)例來(lái)說(shuō)明Pandas的基本用法。

假設(shè)我們有一份銷售數(shù)據(jù)的CSV文件,包含日期、銷售額等字段信息,我們想要通過(guò)Pandas對(duì)其進(jìn)行分析。

首先需要導(dǎo)入Pandas庫(kù):

import pandas as pd

接著讀取CSV文件并將其轉(zhuǎn)換為DataFrame對(duì)象:

df = pd.read_csv('sales.csv')

此時(shí)我們可以使用head()方法查看前幾行數(shù)據(jù):

print(df.head())

結(jié)果輸出如下:

date sales
0 2021-01-01 1000.0 1 2021-01-02 1500.0 2 2021-01-03 NaN 3 2021-01-04 2500.0 4 2021-01-05 800.0

接著我們可以使用describe()方法查看數(shù)據(jù)的統(tǒng)計(jì)信息:

print(df.describe())

結(jié)果輸出如下:

sales
count 29.000000 mean 1424.827586 std 582.199486 min 200.000000 25% 1000.000000 50% 1500.000000 75% 1800.000000 max 2500.000000

除此之外,Pandas還提供了一系列數(shù)據(jù)篩選、排序、分組聚合等功能,本文不再贅述。

二、NumPy庫(kù)介紹

NumPy是Python科學(xué)計(jì)算的核心庫(kù)之一,主要用于處理多維數(shù)組和矩陣運(yùn)算。在數(shù)據(jù)分析中,NumPy通常被用于對(duì)數(shù)據(jù)進(jìn)行預(yù)處理、清洗和轉(zhuǎn)換等操作。下面我們通過(guò)實(shí)例來(lái)說(shuō)明NumPy的基本用法。

假設(shè)我們有一組數(shù)據(jù):[1, 2, 3, 4, 5],現(xiàn)在我們想對(duì)其進(jìn)行一些數(shù)學(xué)計(jì)算,例如求平均值和標(biāo)準(zhǔn)差。

首先需要導(dǎo)入NumPy庫(kù):

import numpy as np

接著將數(shù)據(jù)轉(zhuǎn)換為NumPy數(shù)組對(duì)象:

arr = np.array([1, 2, 3, 4, 5])

此時(shí)我們可以使用mean()方法和std()方法進(jìn)行計(jì)算:

print(arr.mean())
print(arr.std())

結(jié)果輸出如下:

3.0
1.4142135623730951

除此之外,NumPy還提供了一系列數(shù)學(xué)運(yùn)算、數(shù)組操作、線性代數(shù)等功能,本文不再贅述。

三、結(jié)語(yǔ)

本文介紹了Python 3中兩個(gè)重要的庫(kù)Pandas和NumPy的基本用法,包括數(shù)據(jù)的導(dǎo)入、轉(zhuǎn)換、處理、計(jì)算等常見(jiàn)操作。當(dāng)然,這只是它們眾多功能的冰山一角,希望讀者能夠深入學(xué)習(xí)并靈活運(yùn)用,從而在數(shù)據(jù)分析領(lǐng)域取得更優(yōu)秀的成果。


0 人點(diǎn)贊