
后臺菜單【采集管理→新增采集項目】(只有購買 采集模塊 插件才有該菜單)。
第一步:是各種基本信息設(shè)置,這邊就挑幾個重點項目說下。再編寫新規(guī)則或檢查規(guī)則問題,右下角【顯示源代碼并檢查標簽設(shè)置】建議打鉤,這樣每一步都會檢查采集測試結(jié)果是否正確。
1、所屬模塊:主要設(shè)置允許采集圖片和文件最大大小【采集管理→新增采集模塊/采集模塊管理】
2、目標網(wǎng)頁編碼:如果不知道,目標網(wǎng)頁 空白處 右鍵 編碼,就能看到了網(wǎng)頁編碼,編碼選錯采集內(nèi)容會亂碼。
3、分頁/多頁采集設(shè)置:主要用來采集分頁,采集列表第2頁~n頁,{$ID}頁代替網(wǎng)址中變動的頁碼值,下面填下范圍值,如2-10,第二頁到第十頁。
4、采集屬性:
【立即入庫】打鉤,采集文章直接進入【文章管理→文章管理】,沒打鉤,采集文章進入【采集管理→采集結(jié)果】。
【保存遠程圖片】打鉤采集到的圖片保存到本地,不然直接連接目標網(wǎng)站圖片。
?【倒序采集】默認從列表上往下采集,打鉤從下往上采集機。
【使用代理IP】當你的網(wǎng)站IP被限制了,可以考慮用代理IP,不過代理IP采集一般會慢很多,非必要不建議用。設(shè)置代理IP在[常規(guī)設(shè)置→網(wǎng)站參數(shù)設(shè)置 - 商業(yè)版專屬 - 代理IP列表]
【源代碼壓縮】默認打鉤,減少特殊符號對采集的影響
?? 【過濾內(nèi)容敏感代碼?】默認打鉤,減少特殊代碼對采集的影響,只有定位標簽或采集有用到包含JS代碼時才不要打鉤
5、成功采集數(shù)量限制:比如設(shè)置5,那就是當采集到成功5條后,停止采集。已存在記錄數(shù)量限制、失敗采集數(shù)量限制 意思一樣。
下面操作就是目標網(wǎng)站實戰(zhàn)解說,這里以網(wǎng)鈦官網(wǎng) 網(wǎng)鈦PHP版 欄目為例:http://www.feiyangblg.com/news/list_52.html
第二步:列表鏈接設(shè)置
源代碼框如果獲取不到頁面HTML內(nèi)容說明你的空間受限、IP被封或者對方防采集。
打開該列表頁網(wǎng)頁源代碼,網(wǎng)頁隨便空白處,右鍵 【查看網(wǎng)頁源代碼】/【查看源】 。這邊說下開始代碼和結(jié)束代碼什么意思,就是通過開始代碼定位內(nèi)容區(qū)域的開頭,結(jié)束代碼定位內(nèi)容區(qū)域的結(jié)尾,那開頭和結(jié)尾之間內(nèi)容就是我們需要的區(qū)域。如列表開始和結(jié)束代碼,就能獲取到該頁所有文章鏈接,比如說有一頁有15篇文章,那就是獲取到15篇文章鏈接的區(qū)域。然后通過鏈接開始和結(jié)束代碼,獲取每篇文章的網(wǎng)址鏈接。
1、列表開始代碼:
找到下圖區(qū)域,下面紅框框是要采集的文章鏈接信息,上面紅框框就是要我們找開始代碼的地方,里面的紅線是可以選擇作為列表開始代碼的,如圖3處紅線任選一個即可,不僅僅這3處,其他地方也可以作為開始代碼,只要開始代碼頁頭到這里是唯一代碼即可,判斷是不是唯一代碼,很簡單,打開源代碼搜索功能,用這個代碼去搜索如果在指定區(qū)域內(nèi)就它一個,那就是唯一代碼。
2、列表結(jié)束代碼:
結(jié)束代碼只需從開始代碼位置開始計算尋找唯一代碼,如下圖,上面紅框框是列表頁文章鏈接區(qū)域代碼,下面紅框框是分頁區(qū)域,結(jié)束代碼一般就在分頁區(qū)域?qū)ふ?,如下圖5個紅線都是標出來可以作為結(jié)束代碼的,因為從列表開始代碼定位開始到分頁區(qū)域這邊,這5處紅線代碼都可做唯一代碼。當然實際作為唯一代碼,不僅僅就這5處,還有很多處都可以,需要用戶自己多長時間下。
采集時系統(tǒng)會獲取從列表開始代碼到列表結(jié)束代碼之間的代碼區(qū)域,作為列表文章鏈接獲取區(qū)域。
3、鏈接開始代碼:
用于定位文章網(wǎng)址鏈接的開頭區(qū)域,如下圖,看該列表2條文章鏈接區(qū)域,紅線<h4><a href=" 這個2條文章都有,另個 class="img"><a href=" 第二條文章沒有,所以這個不能作為開始代碼,只能用 <h4><a href=" 作為開始代碼,也許有人會問為啥不能用 <a href=" 為開始代碼,如果用它,第一條會匹配到2個網(wǎng)址開頭,第二條會匹配到1個網(wǎng)址開頭,所以只能用 <h4><a href=" 才行。

4、鏈接結(jié)束代碼:
結(jié)束代碼都是從開始代碼位置開始計算尋找一個代碼能完美獲取到網(wǎng)址地址即可,這邊開始代碼是 <h4><a href=",那結(jié)束代碼可以選擇",這樣就能獲取到網(wǎng)址 ../news/8237.html ,開頭 ../屬于常規(guī)相對路徑寫法,系統(tǒng)到時會自動替換為http://路徑形式。設(shè)置到這里,就能獲取到該頁面所有文章鏈接了,然后可以進入下一步。如果右下角【顯示源代碼并檢查標簽設(shè)置】有打鉤,點擊下一步,就可以列出采集到的所有文章鏈接,以此來判斷上一步設(shè)置的是否正確,如果沒獲取到所有文章鏈接,那就是有問題了,要回到上一步重新檢查。
第三步:正文內(nèi)容設(shè)置
到了這里,會羅列出上一步設(shè)置而采集到的列表文章鏈接,如果沒顯示或者鏈接數(shù)量不對,網(wǎng)址是否正確,隨便點開個看看是否正常訪問,如果有問題那就是上一步設(shè)置有問題,返回上一步重新檢查下。
比如下圖這個獲取的第1條網(wǎng)址格式?jīng)]問題,后面9條網(wǎng)址格式都是有問題的,這就說明上一步定位標簽有問題,要返回修改。
隨便打開個內(nèi)容頁源代碼開始編寫內(nèi)容頁采集規(guī)則吧。
1、標題開始代碼 和 標題結(jié)束代碼:
找到源代碼中標題內(nèi)容,如果內(nèi)容太多不好找,直接用網(wǎng)頁搜索關(guān)鍵詞來查找,有些頁面會有多處地方顯示標題,這種情況都對比過去下選擇其中一處靠譜的。如下圖,找到標題區(qū)域這處,開始代碼<h1>,結(jié)束代碼</h1>
2、正文開始代碼 和 正文結(jié)束代碼:
找到正文內(nèi)容,那它的上方代碼 <div id="newsContent"><div> 就是正文開始代碼
正文結(jié)束代碼:先看文章正文是在哪里結(jié)束,如下圖,“插件介紹說明...54.html”這句話結(jié)束,源代碼里
找到這個地方,那他們下面代碼區(qū)就有 正文結(jié)束代碼,這里看過去 <div id="newsEncCont"> 比較靠譜些,可以作為正文結(jié)束代碼。當然開始和結(jié)束代碼還可以是其他,不僅僅就一個,特別文章正文是很復(fù)雜的,部分文章正文可能存在兩三種不同開始結(jié)束代碼,故這邊還有【正文備用標簽】項,最多允許有2個,開啟2個,那就是正文標簽定位不到內(nèi)容時,會調(diào)用正文備用標簽1,如果還是定位不到內(nèi)容調(diào)用正文備用標簽2。
設(shè)置好,就可以下一步看看采集測試效果,沒問題就OK,如果采集效果有問題,返回上一步檢測定位標簽。
還有很多選項由于比較少用,所以這里就不在說明,會這些,基本其他少用選項也能大部分知道怎么設(shè)置。
|
網(wǎng)鈦淘寶店 版權(quán)保護登記號:2013SR057730
閩公網(wǎng)安備35010402351296號 閩ICP備17002817號-2