使用幫助

采集功能插件編寫采集規(guī)則說明教程

時間：2020-08-25 20:14:53 作者：網(wǎng)鈦科技來源：原創(chuàng) 閱讀：2079 評論：0

內(nèi)容摘要：后臺菜單【采集管理→新增采集項目】（只有購買采集模塊插件才有該菜單）。第一步：是各種基本信息設(shè)置，這邊就挑幾個重點項目說下。1、所屬模塊：主要設(shè)置允許采集圖片和文件最大大小【采集管理→新增采集模塊/采集模塊管理】2、目標網(wǎng)頁編碼：如果不知道，目標網(wǎng)頁空白處右鍵編碼，就能......

后臺菜單【采集管理→新增采集項目】（只有購買采集模塊插件才有該菜單）。

第一步：是各種基本信息設(shè)置，這邊就挑幾個重點項目說下。再編寫新規(guī)則或檢查規(guī)則問題，右下角【顯示源代碼并檢查標簽設(shè)置】建議打鉤，這樣每一步都會檢查采集測試結(jié)果是否正確。

1、所屬模塊：主要設(shè)置允許采集圖片和文件最大大小【采集管理→新增采集模塊/采集模塊管理】

2、目標網(wǎng)頁編碼：如果不知道，目標網(wǎng)頁空白處右鍵編碼，就能看到了網(wǎng)頁編碼，編碼選錯采集內(nèi)容會亂碼。

3、分頁/多頁采集設(shè)置：主要用來采集分頁，采集列表第2頁~n頁，{$ID}頁代替網(wǎng)址中變動的頁碼值，下面填下范圍值，如2-10，第二頁到第十頁。

4、采集屬性：

【立即入庫】打鉤，采集文章直接進入【文章管理→文章管理】，沒打鉤，采集文章進入【采集管理→采集結(jié)果】。

【保存遠程圖片】打鉤采集到的圖片保存到本地，不然直接連接目標網(wǎng)站圖片。

?【倒序采集】默認從列表上往下采集，打鉤從下往上采集機。

【使用代理IP】當你的網(wǎng)站IP被限制了，可以考慮用代理IP，不過代理IP采集一般會慢很多，非必要不建議用。設(shè)置代理IP在[常規(guī)設(shè)置→網(wǎng)站參數(shù)設(shè)置 - 商業(yè)版專屬 - 代理IP列表]

【源代碼壓縮】默認打鉤，減少特殊符號對采集的影響

?? 【過濾內(nèi)容敏感代碼?】默認打鉤，減少特殊代碼對采集的影響，只有定位標簽或采集有用到包含JS代碼時才不要打鉤

5、成功采集數(shù)量限制：比如設(shè)置5，那就是當采集到成功5條后，停止采集。已存在記錄數(shù)量限制、失敗采集數(shù)量限制意思一樣。

下面操作就是目標網(wǎng)站實戰(zhàn)解說，這里以網(wǎng)鈦官網(wǎng) 網(wǎng)鈦PHP版欄目為例：http://www.feiyangblg.com/news/list_52.html

第二步：列表鏈接設(shè)置

源代碼框如果獲取不到頁面HTML內(nèi)容說明你的空間受限、IP被封或者對方防采集。

采集功能插件編寫采集規(guī)則說明教程圖1

打開該列表頁網(wǎng)頁源代碼，網(wǎng)頁隨便空白處，右鍵【查看網(wǎng)頁源代碼】/【查看源】。這邊說下開始代碼和結(jié)束代碼什么意思，就是通過開始代碼定位內(nèi)容區(qū)域的開頭，結(jié)束代碼定位內(nèi)容區(qū)域的結(jié)尾，那開頭和結(jié)尾之間內(nèi)容就是我們需要的區(qū)域。如列表開始和結(jié)束代碼，就能獲取到該頁所有文章鏈接，比如說有一頁有15篇文章，那就是獲取到15篇文章鏈接的區(qū)域。然后通過鏈接開始和結(jié)束代碼，獲取每篇文章的網(wǎng)址鏈接。

1、列表開始代碼：

找到下圖區(qū)域，下面紅框框是要采集的文章鏈接信息，上面紅框框就是要我們找開始代碼的地方，里面的紅線是可以選擇作為列表開始代碼的，如圖3處紅線任選一個即可，不僅僅這3處，其他地方也可以作為開始代碼，只要開始代碼頁頭到這里是唯一代碼即可，判斷是不是唯一代碼，很簡單，打開源代碼搜索功能，用這個代碼去搜索如果在指定區(qū)域內(nèi)就它一個，那就是唯一代碼。

采集功能插件編寫采集規(guī)則說明教程圖2

2、列表結(jié)束代碼：

結(jié)束代碼只需從開始代碼位置開始計算尋找唯一代碼，如下圖，上面紅框框是列表頁文章鏈接區(qū)域代碼，下面紅框框是分頁區(qū)域，結(jié)束代碼一般就在分頁區(qū)域?qū)ふ?，如下圖5個紅線都是標出來可以作為結(jié)束代碼的，因為從列表開始代碼定位開始到分頁區(qū)域這邊，這5處紅線代碼都可做唯一代碼。當然實際作為唯一代碼，不僅僅就這5處，還有很多處都可以，需要用戶自己多長時間下。

采集功能插件編寫采集規(guī)則說明教程圖3

采集時系統(tǒng)會獲取從列表開始代碼到列表結(jié)束代碼之間的代碼區(qū)域，作為列表文章鏈接獲取區(qū)域。

3、鏈接開始代碼：

用于定位文章網(wǎng)址鏈接的開頭區(qū)域，如下圖，看該列表2條文章鏈接區(qū)域，紅線<h4><a href=" 這個2條文章都有，另個 class="img"><a href=" 第二條文章沒有，所以這個不能作為開始代碼，只能用 <h4><a href=" 作為開始代碼，也許有人會問為啥不能用 <a href=" 為開始代碼，如果用它，第一條會匹配到2個網(wǎng)址開頭，第二條會匹配到1個網(wǎng)址開頭，所以只能用 <h4><a href=" 才行。

采集功能插件編寫采集規(guī)則說明教程圖4
4、鏈接結(jié)束代碼：

結(jié)束代碼都是從開始代碼位置開始計算尋找一個代碼能完美獲取到網(wǎng)址地址即可，這邊開始代碼是 <h4><a href="，那結(jié)束代碼可以選擇"，這樣就能獲取到網(wǎng)址 ../news/8237.html ，開頭 ../屬于常規(guī)相對路徑寫法，系統(tǒng)到時會自動替換為http://路徑形式。設(shè)置到這里，就能獲取到該頁面所有文章鏈接了，然后可以進入下一步。如果右下角【顯示源代碼并檢查標簽設(shè)置】有打鉤，點擊下一步，就可以列出采集到的所有文章鏈接，以此來判斷上一步設(shè)置的是否正確，如果沒獲取到所有文章鏈接，那就是有問題了，要回到上一步重新檢查。

第三步：正文內(nèi)容設(shè)置

到了這里，會羅列出上一步設(shè)置而采集到的列表文章鏈接，如果沒顯示或者鏈接數(shù)量不對，網(wǎng)址是否正確，隨便點開個看看是否正常訪問，如果有問題那就是上一步設(shè)置有問題，返回上一步重新檢查下。

采集功能插件編寫采集規(guī)則說明教程圖5

比如下圖這個獲取的第1條網(wǎng)址格式?jīng)]問題，后面9條網(wǎng)址格式都是有問題的，這就說明上一步定位標簽有問題，要返回修改。

采集功能插件編寫采集規(guī)則說明教程圖6

隨便打開個內(nèi)容頁源代碼開始編寫內(nèi)容頁采集規(guī)則吧。

1、標題開始代碼和標題結(jié)束代碼：

找到源代碼中標題內(nèi)容，如果內(nèi)容太多不好找，直接用網(wǎng)頁搜索關(guān)鍵詞來查找，有些頁面會有多處地方顯示標題，這種情況都對比過去下選擇其中一處靠譜的。如下圖，找到標題區(qū)域這處，開始代碼<h1>，結(jié)束代碼</h1>

采集功能插件編寫采集規(guī)則說明教程圖7

采集功能插件編寫采集規(guī)則說明教程圖8

2、正文開始代碼和正文結(jié)束代碼：

找到正文內(nèi)容，那它的上方代碼 <div id="newsContent"><div> 就是正文開始代碼

采集功能插件編寫采集規(guī)則說明教程圖9

正文結(jié)束代碼：先看文章正文是在哪里結(jié)束，如下圖，“插件介紹說明...54.html”這句話結(jié)束，源代碼里

找到這個地方，那他們下面代碼區(qū)就有正文結(jié)束代碼，這里看過去 <div id="newsEncCont"> 比較靠譜些，可以作為正文結(jié)束代碼。當然開始和結(jié)束代碼還可以是其他，不僅僅就一個，特別文章正文是很復(fù)雜的，部分文章正文可能存在兩三種不同開始結(jié)束代碼，故這邊還有【正文備用標簽】項，最多允許有2個，開啟2個，那就是正文標簽定位不到內(nèi)容時，會調(diào)用正文備用標簽1，如果還是定位不到內(nèi)容調(diào)用正文備用標簽2。

采集功能插件編寫采集規(guī)則說明教程圖10