AI人工智能 預(yù)處理數(shù)據(jù)

2021-04-08 11:21 更新

在上一節(jié)中,我們已經(jīng)學(xué)習(xí)了監(jiān)督和無(wú)監(jiān)督機(jī)器學(xué)習(xí)算法。 這些算法需要格式化數(shù)據(jù)才能開(kāi)始訓(xùn)練過(guò)程。在這一節(jié)中,我們以某種方式準(zhǔn)備或格式化數(shù)據(jù),以便將其作為 ML 算法的輸入提供。

本章重點(diǎn)介紹機(jī)器學(xué)習(xí)算法的數(shù)據(jù)準(zhǔn)備。

在我們的日常生活中,需要處理大量數(shù)據(jù),但這些數(shù)據(jù)是原始數(shù)據(jù)。 為了提供數(shù)據(jù)作為機(jī)器學(xué)習(xí)算法的輸入,需要將其轉(zhuǎn)換為有意義的數(shù)據(jù)。 這就是數(shù)據(jù)預(yù)處理進(jìn)入圖像的地方。 換言之,可以說(shuō)在將數(shù)據(jù)提供給機(jī)器學(xué)習(xí)算法之前,我們需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。

數(shù)據(jù)預(yù)處理步驟

按照以下步驟在 Python 中預(yù)處理數(shù)據(jù) -

第1步 - 導(dǎo)入有用的軟件包 - 如果使用 Python,那么這將成為將數(shù)據(jù)轉(zhuǎn)換為特定格式(即預(yù)處理)的第一步。如下代碼 -

import numpy as np
from sklearn import preprocessing

這里使用了以下兩個(gè)軟件包 -

  • NumPy - 基本上 NumPy 是一種通用的數(shù)組處理軟件包,設(shè)計(jì)用于高效處理任意記錄的大型多維數(shù)組而不犧牲小型多維數(shù)組的速度。
  • sklearn.preprocessing - 此包提供了許多常用的實(shí)用函數(shù)和變換器類,用于將原始特征向量更改為更適合機(jī)器學(xué)習(xí)算法的表示形式。

第2步 - 定義樣本數(shù)據(jù) - 導(dǎo)入包后,需要定義一些樣本數(shù)據(jù),以便可以對(duì)這些數(shù)據(jù)應(yīng)用預(yù)處理技術(shù)。現(xiàn)在將定義以下樣本數(shù)據(jù) -

input_data = np.array([[2.1, -1.9, 5.5],
                       [-1.5, 2.4, 3.5],
                       [0.5, -7.9, 5.6],
                       [5.9, 2.3, -5.8]])

第3步 - 應(yīng)用預(yù)處理技術(shù) - 在這一步中,我們需要應(yīng)用預(yù)處理技術(shù)。

以下部分描述數(shù)據(jù)預(yù)處理技術(shù)。

以上內(nèi)容是否對(duì)您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號(hào)
微信公眾號(hào)

編程獅公眾號(hào)