DeDeCMS织梦的采集教程

2019-08-28 作者:计算机教程   |   浏览(192)

下载完后开始采集

www.2003.com 1

www.2003.com 2

测试采集

www.2003.com 3

ok

www.2003.com 4

www.2003.com 5

导出

www.2003.com 6

www.2003.com 7

更新HTML后,OK

www.2003.com 8

就这么简单了,懂了毛?

[ 本帖最后由 IT柏拉图 于 2006-4-5 22:20 编辑 ]

转载请注明出自落伍im286.com,本贴地址:http://www.im286.com/viewthread.php?tid=1359689

如果在测试结果发现有无关的网址信息,说明的第五步中的网址过滤规则有误或者没有填写过滤规则。如果发现采集有误,你可以返回上一次修改,没有就点击“保存信息并进入下一步设置”。

其它内容

www.2003.com 9

www.2003.com 10www.2003.com 11

这是我们要采集的目标网址

www.2003.com 12

内容字段获取规则

标题里有些多出来的东西处理一下

www.2003.com 13

www.2003.com 14

看看分页是怎么设置的

www.2003.com 15

相关阅读:

先下载种子网址

www.2003.com 16

www.2003.com 17

文章body部份

www.2003.com 18

过滤规则

结束

www.2003.com 19

www.2003.com 20

开始采集

www.2003.com 21www.2003.com,

查看已下载

回到采集节点管理的界面,也就是第一步中的界面,我们选择节点,点击采集

可以在采集界面的右上角,点击“查看已下载”。也可以在“采集节点管理”的界面里点击“查看已下载”。这里以第二个方法为例。

www.2003.com 22

选择要导入到的栏目,数据量,是否生成html文件 ,随机推荐数量

比如,网易每篇文章都有一个放置广告的iframe标签,我们要采集网易的文章,不可能采集回来之后,一篇一篇得去删除这个广告。但是如何去除呢?去除方法就是那个过滤规则,我们点击常用规则,就会弹出一个小窗口,列出了常用的过滤规则,我们只需点击要们要过滤的规则即可,要过滤网易文章中的iframe标签,我们就点击iframe即可。

DEDECMS采集教程

第二步、新增节点-配置网址索引

新增节点-配置文章网址匹配规则

www.2003.com 23

第一步、我们打开织梦后台点击采集——采集节点管理——增加新节点

测试内容字段设置

www.2003.com 24

查看采集站点的编码和网站源码

www.2003.com 25

www.2003.com 26

www.2003.com 27

本文由www.2003.com发布于计算机教程,转载请注明出处:DeDeCMS织梦的采集教程

关键词: