使用过织梦系统的站长应该知道,在织梦后台就有自带的采集插件,这个插件完全是免费的,但是采集并不是很强大,有时候回出现一些问题。我们也应该知道,免费的东西就是这样的,那么今天我们就来说说织梦自带采集节点管理插件使用方法,跟大伙分享下!
1、登录后台
登录后台就不用我多说了吧,应该都是没有问题的;
2、采集模块
进入织梦后台之后,在最右侧中找到“采集”并且点开,点开之后我们会看到“采集管理”下面有采集节点管理、临时内容管理、导入采集规则、监控此案件模式等等。
我们主要讲的是“采集节点”所以找到点开。
3、节点配置
在我们打开节点管理的时候发现什么都没有,那我们就要增加新节点了,选择增加新节点之后会出现一个选择框,是选择我们要采集的内容。
(1)节点基本信息
节点名称:我们可以写我们所采集的网站,这样也方便以后的管理;
目标页面编码:这里的编码是指你要采集网站的编码,查看方式:找到要采集的网站,鼠标右击时会出现“查看原文件或者源码”;
区域匹配模式:默认
内容导入顺序:默认
防盗链模式:默认
资源下载超时时间:默认
引用网址:这里的网址是指我们要采集的网址,不是www.xxxx.com 这个是主域名,这里并不能采集整站,我们一般采集的都是对方的栏目文章,所以这的引用网址可以认为是栏目的网址。
(2)列表网址获取规则
来源属性:一共有三个选项,可根据自己的需求所选择,一般都是选择“批量生成列表网址”,因为比较简单并且可以采集多条。
批量生成地址设置:如果我们上面来源属性选择的是“批量生成列表网址”的话那么把采集的网址填入“匹配网址”选框中。(如:http://www.xiaoxiaseo.com/test/list_(*).html,如果不能匹配所有网址,可以在手工指定网址的地方输入要追加的网址)
手工指定网址:在指定了通配规则后有些不能匹配的网址也可以在这里指定。
(3)文章网址匹配规则
区域开始的HTML:指的是栏目列表文章最开始的区域唯一的代码,如下图:
区域结束的HTML:与上面的区域开始一样,找到结束代码,如下图:
如果链接中含有图片:采集为缩略图
对区域网址进行再次筛选:(使用正则表达式)选择包含.html,然后保存信息并进入下一步设置;
显示这样的是属于正常的,如下图:
(4)文章规则
文章标题:跟上面的差不多,如下图:
文章内容:找到文章的开始标签和结束标签,如下图:
过滤规则:根据自己的需求选择
保存配置并预览之后看看采集的文章是不是正常出现,正常出现就开始保存并开始采集把!
采集成功之后可以直接导出到我们要发布的栏目即可。