PHPCMS采集模塊

2018-12-19 13:48 更新

位置: 內(nèi)容 > 內(nèi)容發(fā)布管理 > 采集管理 >

模塊常用操作

操作名說(shuō)明
采集流程詳述無(wú)
其它功能說(shuō)明無(wú)

說(shuō)明:

 文章的采集功能是通過(guò)程序來(lái)遠(yuǎn)程獲取目標(biāo)網(wǎng)頁(yè)內(nèi)容,經(jīng)過(guò)本地規(guī)則解析處理后存儲(chǔ)到服務(wù)器的數(shù)據(jù)庫(kù)內(nèi)。 
 文章采集系統(tǒng)顛覆傳統(tǒng)采集模式和流程,采集規(guī)則與采集界面分離,規(guī)則設(shè)置更簡(jiǎn)單,只需有基礎(chǔ)技術(shù)知識(shí)的人員設(shè)置好相關(guān)規(guī)則。編輯人員無(wú)需了解太過(guò)細(xì)節(jié)的技 術(shù)規(guī)則,只需選中自己想要采集的文章列表,就可以像發(fā)布文章一樣,輕松地完成數(shù)據(jù)采集操作。  

一、采集流程

簡(jiǎn)單的講有三個(gè)步驟:
1、添加采集點(diǎn),填寫采集規(guī)則。
2、采集網(wǎng)址,采集內(nèi)容
3、發(fā)布內(nèi)容到指定欄目
 
以采集新浪新聞(http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml)為例,作一下詳細(xì)流程介紹。
 
實(shí)例說(shuō)明:
 
目標(biāo):采集新浪新聞到V9系統(tǒng) 國(guó)際新聞 欄目中。 
目標(biāo)網(wǎng)址:http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml

1、添加采集點(diǎn)

1.1 網(wǎng)址規(guī)則配置
 
phpcms

 添加采集點(diǎn) - 網(wǎng)址規(guī)則配置圖1
 
 
查看要采集的目標(biāo)網(wǎng)址源代碼,查找到要采集網(wǎng)址的開始點(diǎn)和結(jié)束點(diǎn)(這二個(gè)點(diǎn)要有在整個(gè)源代碼里具有唯一性)。更進(jìn)一步縮小采集網(wǎng)址搜索范圍。
 PHPCMS 
                      添加采集點(diǎn) - 網(wǎng)址規(guī)則配置圖2
 
測(cè)試你的網(wǎng)址采集規(guī)則是否正確,如下圖所示
 PHPCMS
 
1.2 內(nèi)容規(guī)則配置 
 
內(nèi)容規(guī)則這里看起來(lái)比較復(fù)雜,其實(shí)也很簡(jiǎn)單,為了便于說(shuō)明,我們只采集標(biāo)題、內(nèi)容兩個(gè)字段。采集內(nèi)容網(wǎng)址:
http://news.sina.com.cn/w/2010-12-01/135121565455.shtml 的內(nèi)容采集規(guī)則,請(qǐng)你打開這個(gè)網(wǎng)址,然后頁(yè)面空白處右鍵->查看源文件搜索標(biāo)題和內(nèi)容的開始邊界。
 
標(biāo)題采集配置:
從網(wǎng)頁(yè)<title></title>里取標(biāo)題,并去除不需要的字符。如下圖
 PHPCMS
 
內(nèi)容采集配置:
 
新浪新聞最終頁(yè),新聞內(nèi)容都包含在 <!-- 正文內(nèi)容 begin --> <!-- 正文內(nèi)容 end --> 之間,而且這二個(gè)結(jié)點(diǎn),在整個(gè)頁(yè)面源代碼中具有唯一性。所以可以以此為規(guī)則取內(nèi)容。并對(duì)內(nèi)容進(jìn)行過(guò)濾。如下圖  
 
PHPCMS

1.3 自定義規(guī)則
 
1.4 高級(jí)配置
 
可設(shè)置是否把圖片下載到服務(wù)器上,是否打水印等配置。
 
PHPCMS

 

2、采集網(wǎng)址,采集內(nèi)容
 

采集規(guī)則配好以后,即可進(jìn)行網(wǎng)址的采集,然后進(jìn)行內(nèi)容的采集。
 
PHPCMS

3、發(fā)布內(nèi)容到指定欄目
 PHPCMS
PHPCMS

選擇導(dǎo)入的欄目
 
PHPCMS

設(shè)置 采集內(nèi)容與數(shù)據(jù)庫(kù)的字段對(duì)應(yīng)關(guān)系.提交進(jìn)行數(shù)據(jù)入庫(kù),在此期間請(qǐng)耐心等待, 完成后會(huì)自動(dòng)轉(zhuǎn)向。至此一個(gè)簡(jiǎn)單的采集流程就操作完成。
 
其它更多功能,期待你發(fā)掘。
以上內(nèi)容是否對(duì)您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號(hào)
微信公眾號(hào)

編程獅公眾號(hào)