
視頻教程:
圖文教程:
其實(shí)采集可以這么理解,定義頭和尾,除了在截取鏈接不需要檢測(cè),在其它地方你定義的頭和尾,在同G個(gè)html表里不能有相同的,為什么不能有相同的呢?是因?yàn)椴杉拿恳徊剑ǔ私厝℃溄油猓┒际歉鶕?jù)你所定義的頭和尾來(lái)截取頁(yè)面內(nèi)容的。所以你在定義頭和尾不僅不能有相同的,還要盡可能地把不需要的內(nèi)容排除開(kāi)。如果你理解了這個(gè)定義頭和尾,基本上對(duì)于簡(jiǎn)單的頁(yè)面是能采集的。G面我以一個(gè)實(shí)例來(lái)說(shuō)明一下:
一、設(shè)置采集模塊
在后臺(tái)點(diǎn)擊【采集管理】,出現(xiàn)的是【新增采集模塊】的內(nèi)容,主要設(shè)置下載的大小和超時(shí)時(shí)間,以及給采集項(xiàng)目分類(lèi),便于查詢(xún),目前作用不是很大。

二、設(shè)置采集規(guī)則
1、點(diǎn)擊【新增采集項(xiàng)目】,進(jìn)入采集項(xiàng)目的第一步,我們以采集SOHU的國(guó)內(nèi)IT信息為例,如圖設(shè)置:
1)項(xiàng)目名稱(chēng):給采集項(xiàng)目命名
2)所屬模塊:采集數(shù)據(jù)入庫(kù)后,放入哪個(gè)欄目
3)目標(biāo)頁(yè)面編碼:國(guó)內(nèi)的網(wǎng)站選擇GB2312,國(guó)外網(wǎng)站選擇UTF-8,臺(tái)灣的繁體字網(wǎng)站選擇BIG5;
4)采集網(wǎng)址URL:就是要采集的列表頁(yè)面,這一步很關(guān)鍵,這一步關(guān)系到你能否采集完所有內(nèi)容。一般你進(jìn)入采集頁(yè)面先判斷一下是不是有多頁(yè),如果有多頁(yè)你進(jìn)入第二頁(yè)和第一頁(yè)是不是有規(guī)律變化,比如是:xxxx_1.htm,xxx_2.htm,特別注意數(shù)字,如果第一頁(yè)開(kāi)始就有_id的規(guī)律,那就把第一頁(yè)作為列表網(wǎng)址,如果第一頁(yè)與第二頁(yè)沒(méi)相關(guān)規(guī)律,而是從第二頁(yè)開(kāi)始才能這樣的規(guī)律,那將第二頁(yè)作為列表網(wǎng)址,第一頁(yè)放到一邊,等所有數(shù)據(jù)采集完了,再來(lái)采集單獨(dú)頁(yè)面,反正以后也只采集第一頁(yè),為啥?因?yàn)橐话愀碌亩荚诘谝豁?yè)。
5)分頁(yè)/多頁(yè)采集設(shè)置:若只采集一個(gè)頁(yè)面,選擇“不作設(shè)置”,采集多頁(yè)面,可選擇其他3項(xiàng);
6)采集屬性:“立即入庫(kù)”指一采集就在前臺(tái)顯示,建議此項(xiàng)不要選擇,沒(méi)選擇此項(xiàng),采集結(jié)果將進(jìn)入【采集結(jié)果】頁(yè)面, 后再入庫(kù);“保存遠(yuǎn)程圖片”指把圖片保存到本地;“倒序采集”指采集結(jié)果的排序順序,打勾它,采集記錄順序和采集列表頁(yè)一致。
7)狀態(tài):指入庫(kù)后文章的狀態(tài),即文章在前臺(tái)是顯示,還是隱藏;
8)其它設(shè)置項(xiàng) 是按字面的意思,一般默認(rèn)設(shè)置就行,就不詳細(xì)說(shuō)了

2、列表鏈接設(shè)置
1)打開(kāi)采集頁(yè)面,如http://it.sohu.com/itguonei.shtml,

鼠標(biāo)右擊頁(yè)面,彈出窗口,選擇【查看源代碼(V)】,在源代碼中找到所要采集的列表,如下圖,

找出“列表開(kāi)始代碼”、“列表結(jié)束代碼”、“鏈接開(kāi)始代碼”、“鏈接結(jié)束代碼”,最后兩項(xiàng)一般默認(rèn)就行,然后點(diǎn)擊“下一步”。

3、正文內(nèi)容設(shè)置
打開(kāi)列表頁(yè)中的一個(gè)內(nèi)容頁(yè),如http://it.sohu.com/20101104/n277154569.shtml,鼠標(biāo)右擊頁(yè)面,彈出窗口,選擇【查看源代碼(V)】,在源代碼中找到所要采集的“標(biāo)題開(kāi)始代碼”、“標(biāo)題結(jié)束代碼”、“正文開(kāi)始代碼”、“正文結(jié)束代碼”,其他幾個(gè)設(shè)置項(xiàng)視需要而定,可默認(rèn),然后點(diǎn)擊“下一步”。

4、正文內(nèi)容采集效果

點(diǎn)擊“點(diǎn)擊查看正文內(nèi)容采集效果”,出現(xiàn)如下頁(yè)面,那采集結(jié)果正常。

點(diǎn)擊“完成”后,會(huì)跳轉(zhuǎn)到【采集項(xiàng)目管理】頁(yè)面
注:若采集結(jié)果有問(wèn)題,修改“列表鏈接設(shè)置”、“正文內(nèi)容設(shè)置”中的起始、終止代碼,多試幾次,就可得出所要的內(nèi)容了,有的頁(yè)面可能無(wú)法采集,不同所有的頁(yè)面都可以采集的。
三、采集項(xiàng)目管理
現(xiàn)在就可以開(kāi)始采集了,點(diǎn)擊右邊的采集按鈕,進(jìn)行單個(gè)采集,或者勾選幾個(gè)要采集的項(xiàng)目,點(diǎn)擊“批量采集”按鈕。建議上面設(shè)置項(xiàng)中不要勾選“立即入庫(kù)”,擔(dān)心采集有異常,這樣采集結(jié)束后,采集內(nèi)容將在【采集結(jié)果】頁(yè)面中顯示,檢查沒(méi)問(wèn)題后,再點(diǎn)擊入庫(kù),最后到前臺(tái)檢查下數(shù)據(jù),這樣整個(gè)采集過(guò)程就完成了。

|
網(wǎng)鈦淘寶店 版權(quán)保護(hù)登記號(hào):2013SR057730
閩公網(wǎng)安備35010402351296號(hào) 閩ICP備17002817號(hào)-2