大數(shù)據(jù)分析是一個(gè)有吸引力的領(lǐng)域。這是有利可圖的,您有機(jī)會(huì)從事有趣的項(xiàng)目,而且您總是在學(xué)習(xí)新事物。因此,進(jìn)入大數(shù)據(jù)分析領(lǐng)域極具競(jìng)爭(zhēng)力。開始大數(shù)據(jù)分析事業(yè)的最佳方法之一是通過大數(shù)據(jù)分析實(shí)習(xí)。
在大數(shù)據(jù)分析實(shí)習(xí)生面試題庫中,我們將研究所需的一般知識(shí)水平,典型面試過程的組成部分以及一些面試問題示例。注意,強(qiáng)調(diào)“通用”一詞是因?yàn)榫唧w情況因公司而異。
大數(shù)據(jù)分析實(shí)習(xí)面試會(huì)有什么期望?
大數(shù)據(jù)分析實(shí)習(xí)面試和專職大數(shù)據(jù)分析師之間的最大區(qū)別在于,通常不會(huì)期望您了解有關(guān)機(jī)器學(xué)習(xí)或深度學(xué)習(xí)概念的極其具體的細(xì)節(jié)。
但是,您將期望擁有能夠在其上進(jìn)行構(gòu)建的基本構(gòu)建塊-包括Python
,R
或SQL
,統(tǒng)計(jì)和概率基礎(chǔ) 以及 基本的機(jī)器學(xué)習(xí)概念。
Python和R
您應(yīng)該具有腳本語言(最好是Python或R)的編程經(jīng)驗(yàn)。如果您是Python
程序員,則還應(yīng)該對(duì)流行的庫(如Scikit-learn 和 Pandas)有基本的了解 。
(推薦教程:python教程)
您應(yīng)該了解的內(nèi)容: 您應(yīng)該知道如何編寫基本功能,并對(duì)各種數(shù)據(jù)結(jié)構(gòu)及其用途有基本的了解。您還應(yīng)該了解Scikit-learn
的基本(但仍必不可少)功能,例如test_train_split
和StandardScaler
。對(duì)于Pandas
,您應(yīng)該像使用SQL
編寫查詢那樣舒適地操作DataFrame
。
例如,您可能需要構(gòu)建一個(gè)簡(jiǎn)單的機(jī)器學(xué)習(xí)模型來預(yù)測(cè)產(chǎn)品的銷售數(shù)量。在這種情況下,如果您是Python
用戶,那么了解Scikit-Learn
庫將非常有用,因?yàn)樗呀?jīng)提供了許多預(yù)構(gòu)建的函數(shù),例如上面提到的那些函數(shù)。
如何準(zhǔn)備: 嘗試在Kaggle
上進(jìn)行大數(shù)據(jù)分析項(xiàng)目或在Interview Query
上進(jìn)行實(shí)地考察,以了解您可能需要完成哪些項(xiàng)目。
為了更好地了解Scikit-Learn
,最好使用它構(gòu)建一個(gè)簡(jiǎn)單的機(jī)器學(xué)習(xí)模型,或者逐步完成其他人已經(jīng)完成的一些大數(shù)據(jù)分析項(xiàng)目。
(推薦微課:python3基礎(chǔ)微課)
最后,嘗試在Interview Query
上練習(xí)Python
問題,以了解他們可能會(huì)問您什么。
SQL
不會(huì)期望您在關(guān)系數(shù)據(jù)庫方面有太多的經(jīng)驗(yàn),但是至少,您應(yīng)該了解SQL
的工作方式。 如果您正在爭(zhēng)取大數(shù)據(jù)分析師的實(shí)習(xí)機(jī)會(huì),那么您很可能會(huì)在擁有大量數(shù)據(jù)的公司工作。您將需要親自瀏覽這些數(shù)據(jù)來解決問題。
(推薦課程:SQL教程)
您應(yīng)該了解的內(nèi)容: 您應(yīng)該能夠編寫基本查詢,并且應(yīng)該知道如何使用SQL
查詢來操縱數(shù)據(jù)。對(duì)于公司而言,將SQL
納入其實(shí)際案例研究中非常普遍,因此,您必須非常了解SQL
。
示例問題:
編寫一個(gè)SQL
查詢以從Employee
表中獲取第二高的薪水 。例如,給定下面的Employee
表,查詢應(yīng)返回 200 作為第二高的薪水。如果沒有第二高的薪水,則查詢應(yīng)返回 null
。
+ ---- + ---------- +
| ID | 薪金|
+ ---- + ---------- +
| 1 | 100 |
| 2 | 200 |
| 3 | 300 |
+ ---- + ---------- +
如何準(zhǔn)備: 模式為學(xué)習(xí)基本SQL
提供了很好的資源,可以在這里找到。此外,您還可以在線找到大量的SQL
練習(xí)問題和練習(xí)案例研究。
(推薦微課:SQL微課)
統(tǒng)計(jì)與概率
您應(yīng)該對(duì)基本統(tǒng)計(jì)數(shù)據(jù)和概率有所了解 。這些概念是大多數(shù)機(jī)器學(xué)習(xí)和大數(shù)據(jù)分析概念的基礎(chǔ)。同樣,許多要求大數(shù)據(jù)分析職位的面試問題都與統(tǒng)計(jì)有關(guān)。
您應(yīng)該了解的內(nèi)容: 您應(yīng)該對(duì)基本概念有扎實(shí)的理解,包括但不限于概率基礎(chǔ),概率分布,估計(jì)和假設(shè)檢驗(yàn)。統(tǒng)計(jì)數(shù)據(jù)的一個(gè)非常普遍的應(yīng)用是條件概率,例如,假設(shè)客戶購買了產(chǎn)品C,那么購買該產(chǎn)品B的概率是多少?
如何準(zhǔn)備: 如果您對(duì)這些概念感到陌生,則可以利用許多免費(fèi)資源,例如Khan Academy
或Georgia Institute of Technology
。
機(jī)器學(xué)習(xí)概念
雖然不希望您成為專家,但是您應(yīng)該對(duì)基本的機(jī)器學(xué)習(xí)模型和概念有很好的了解 。如果職位描述表明您將要構(gòu)建模型,則尤其如此。
您應(yīng)該了解的內(nèi)容: 這包括但不限于線性回歸,支持向量機(jī)和聚類之類的概念。理想情況下,您應(yīng)該對(duì)這些概念有基本的了解,并了解何時(shí)適合使用各種機(jī)器學(xué)習(xí)方法。
例如,您可能需要對(duì)產(chǎn)品的價(jià)格點(diǎn)實(shí)施線性回歸以確定銷售數(shù)量。話雖如此,您將不需要生產(chǎn)或部署機(jī)器學(xué)習(xí)模型作為實(shí)習(xí)生。
領(lǐng)域知識(shí)
您應(yīng)該對(duì) 所申請(qǐng)的領(lǐng)域具有 領(lǐng)域知識(shí)(如果沒有,則應(yīng)該學(xué)習(xí))。
例如,如果您要申請(qǐng)市場(chǎng)營銷部門的大數(shù)據(jù)分析職位,那么了解不同的營銷渠道(例如社交媒體,會(huì)員,電視)以及核心指標(biāo)(例如LTV, CAC)。
大數(shù)據(jù)分析實(shí)習(xí)面試流程
同樣,面試過程最終取決于您所申請(qǐng)的公司。但是一般來說,大多數(shù)(如果不是全部)公司在面試過程中都有一些一般步驟,我將在下面進(jìn)行解釋。
作為實(shí)習(xí)生, 最糟糕的事情是不對(duì)公司的工作進(jìn)行研究 ,這是文化使命和價(jià)值觀。
初步篩選
通常,由公司的招聘人員或招聘經(jīng)理進(jìn)行初步篩選(通常是電話篩選)。這樣做的目的是為了使受訪者更好地了解其角色,并使訪問者更好地了解受訪者。
您應(yīng)該期望他們?cè)儐柲鷮?duì)這個(gè)職位和公司的興趣,為什么認(rèn)為自己很合適,以及與您過去的經(jīng)歷有關(guān)的問題。在極少數(shù)情況下,您可能還會(huì)被問到一個(gè)或兩個(gè)簡(jiǎn)單的技術(shù)問題。
面試官只是在確保您對(duì)公司真正感興趣,您是一個(gè)很好的溝通者,并且沒有提出任何危險(xiǎn)信號(hào)。
帶回家的情況
對(duì)于現(xiàn)在的許多大數(shù)據(jù)分析實(shí)習(xí),公司將要求您完成一項(xiàng)實(shí)戰(zhàn)挑戰(zhàn)。這意味著他們會(huì)給您一定的時(shí)間來完成他們給您的案例研究,這通常反映出您在實(shí)際角色中會(huì)遇到的問題。
這樣做是為了了解您如何解決問題(即思考過程),以及您是否具有完成問題所需的基本知識(shí)。案例的示例包括 清理數(shù)據(jù)集 并 建立機(jī)器學(xué)習(xí)模型以做出給定的預(yù)測(cè)或查詢數(shù)據(jù)集并分析數(shù)據(jù)或兩者結(jié)合。
現(xiàn)場(chǎng)采訪
最后是現(xiàn)場(chǎng)采訪,可以包括一輪到多達(dá)六輪的采訪。這些面試由行為和技術(shù)面試問題組成。您可能還需要現(xiàn)場(chǎng)完成一輪案件。
當(dāng)他們?cè)噲D確保您對(duì)成功擔(dān)任該角色所需的基本知識(shí)有深刻的了解時(shí),他們還將評(píng)估您的行為動(dòng)機(jī),并最終評(píng)估您是否適合團(tuán)隊(duì)或不。確保您處于最佳行為狀態(tài),但不要忘記做自己!
面試問題
以下是您希望了解的一些面試問題的幾個(gè)示例:
1)什么是p值?
2)什么是正則化,它試圖解決什么問題?
3)您如何將年齡和收入之間的關(guān)系轉(zhuǎn)換成線性模型?
4)如果您有兩個(gè)相等重量的骰子,總和為4的概率是多少?
5)在整理和清理數(shù)據(jù)集時(shí)需要采取哪些步驟?
6)什么是交叉驗(yàn)證,為什么有必要?
7)舉例說明在確定機(jī)器學(xué)習(xí)模型有效性時(shí),準(zhǔn)確性不是最佳指標(biāo)。
8)INNER
和OUTER JOIN
有什么區(qū)別?
以上就是關(guān)于大數(shù)據(jù)大數(shù)據(jù)分析實(shí)習(xí)生的面試經(jīng)驗(yàn)題庫的相關(guān)介紹了,希望對(duì)大家有所幫助。