App下載

Python簡(jiǎn)單品讀小說(shuō)

猿友 2018-07-27 17:52:26 瀏覽數(shù) (5818)
反饋

本文轉(zhuǎn)載至知乎ID:Charles(白露未晞)知乎個(gè)人專(zhuān)欄

下載W3Cschool手機(jī)App,0基礎(chǔ)隨時(shí)隨地學(xué)編程>>戳此了解

導(dǎo)語(yǔ)

利用Python簡(jiǎn)單品讀/分析一下小說(shuō)~~~

T_T純屬娛樂(lè)~~~

如有雷同,不甚榮幸~~~

Let's Go~~~

不想看過(guò)程的請(qǐng)直接下拉到最后看結(jié)果~~~


相關(guān)文件

網(wǎng)盤(pán)下載鏈接: https://pan.baidu.com/s/1D5dITcY27S0ji8nyJUP2fA

密碼: c3kd


開(kāi)發(fā)工具

Python版本:3.6.4

相關(guān)模塊:

gensim模塊;

jieba模塊;

scipy模塊;

snownlp模塊;

matplotlib模塊;

numpy模塊。


環(huán)境搭建

安裝Python并添加到環(huán)境變量,pip安裝需要的相關(guān)模塊即可。

額外說(shuō)明:

pip下載速度過(guò)慢:

臨時(shí)/永久換源~~~(百度上就有很多教程T_T)

pip安裝失?。?/span>

到類(lèi)似https://www.lfd.uci.edu/~gohlke/pythonlibs/這樣的網(wǎng)站下載whl文件安裝。


主要思路

(1)小說(shuō)主要人物分析

統(tǒng)計(jì)每個(gè)角色在小說(shuō)中出現(xiàn)的次數(shù),并假設(shè)出現(xiàn)的次數(shù)越多,人物在小說(shuō)中的地位越高。

(2)小說(shuō)人物關(guān)系分析

利用gensim生成一個(gè)詞向量模型來(lái)分析人物關(guān)系。

T_T這個(gè)模型是Google在2013年開(kāi)源出來(lái)的,具體實(shí)現(xiàn)細(xì)節(jié)還沒(méi)來(lái)得及看,算不上深度學(xué)習(xí),只是淺層的神經(jīng)網(wǎng)絡(luò)~~~

(3)小說(shuō)情感分析

主要利用了snownlp庫(kù)。

具體實(shí)現(xiàn)過(guò)程詳見(jiàn)源代碼。

補(bǔ)充說(shuō)明

分析小說(shuō)之前需要先到相關(guān)網(wǎng)站下載小說(shuō)的文本文件并新建一個(gè)含有小說(shuō)中所有人物名的文本文件。

修改源代碼(analysis.py)中的:

if __name__ == '__main__':(98行)

下面的小說(shuō)文件路徑后在cmd窗口中運(yùn)行即可。


Python品紅樓

T_T首先讓我們看看這本我看了20年也只看了前3頁(yè)的中國(guó)古典四大名著之首?。。?/span>

主要人物(Top10):

前面幾個(gè)名字還是挺耳熟的???

人物關(guān)系圖:

也不曉得靠譜不,聚類(lèi)得到的圖~~~

T_T隨手還得出了這樣的結(jié)論(逃):

小說(shuō)整體的情感基調(diào)(消極or積極?):

以0.5為界,左邊代表消極,右邊代表積極~~~

這么極端的嘛T_T


Python品天龍八部

T_T只看過(guò)電視劇~~~

主要人物(Top10):

可能有些地方是喬峰,有些地方是蕭峰的原因吧,畢竟我覺(jué)得喬峰才是主角呀!

人物關(guān)系圖:

以及隨手得出的結(jié)論:

T_T毀三觀啊~~~

小說(shuō)整體的情感基調(diào)(消極or積極?):

Excuse me???


更多

不玩了T_T

以上內(nèi)容純屬不專(zhuān)業(yè)不科學(xué)純娛樂(lè)的分析~~~

有興趣的可以去分析一下其他小說(shuō)T_T

說(shuō)不定可以得到令人震驚的結(jié)論~~~

1 人點(diǎn)贊