dedecms自带的采集系统用法 - DedeCMS - 软件开发资源站

首页 > CMS教程 > DedeCMS > dedecms自带的采集系统用法

dedecms自带的采集系统用法
类别：DedeCMS 作者：码皇来源：互联网点击：

本来没有打算写这么早的，想先从安装慢慢讲起，一个朋友问了，并且答应他今天为他出一个教程，就写到这里了。首先进入织梦后台，采集模块——采集节点管理1 找到要采集的目标网站，本次以新浪各地新闻为例：http: r ,魔客吧

本来没有打算写这么早的，想先从安装慢慢讲起，一个朋友问了，并且答应他今天为他出一个教程，就写到这里了。
首先进入织梦后台，采集模块——采集节点管理

1.找到要采集的目标网站，本次以新浪各地新闻为例：http://roll.news.sina.com.cn/news/gnxw/gdxw1/index.shtml （最好为新闻列表页面）。

2.点击增加新节点，进入下面这个页面：

就选择普通文章，点击确定（当然如果采集图片，另说，本文不谈）。进入下一个界面，先看节点基本信息：

节点名称，就是以后采集的时候可以看到是哪个节点，没有别的含义，不过最好输入相关的采集名称，方便以后能够知道，这个节点采集的是什么信息。
目标页面编码：这个一定要填写准确，不然采集到的会是乱码，查看方法：
在目标页面，点击鼠标右键——查看页面源代码
在head标签里面会看到这样一段代码：

[代码]xml代码：

charset=gb2312这个就是目标页面编码，如果看到的是gbk，同样可以认为是gb2312，都是代表简体中文。一般常见的就是gb2312与utf8。
下面的都可以不填写。

3.下面看列表网址获取规则

个人比较喜欢用手工指定列表网址，就是在手工指定网址框里面，输入要采集的目标网站网址就行了。

4.文章网址匹配规则。

区域开始的HTML里面填写目标网址文章列表前的一段代码。
区域结束的HTML里面，填写目标网址文章列表后的一段代码。
此处记得，开始前与结束后的这两段代码，都必须是在本目标页面源代码里面独一无二的。否做会采集到别的内容。
打开目标页面源代码页面，找到文章列表所在的区域：

[代码]xml代码：

国家海洋局公布钓鱼岛及其部分附属岛屿坐标(09月15日 09:31)
。。。。。。。。。。。。。。。。

因为太多，下面用省略号代替。他这个列表时用li标签做的，一般看到class我就比较高兴，因为这个一般都是在本页面独一无二的。先尝试一下
开始区域就填写这句代码：

结束区域往下看，可以看到这样一句：

暂时可以先选定这句。填写完成。
下面先不填，点击保存进入下一步设置
如果能看到下面这个画面，表示我们采集文章列表网址成功：

如果是空表，即表示失败，需要重新填写。
看来我们成功了，然后点击保存信息，进入下一步设置。

5.进入这个页面，看文章标题匹配规则

随便打开我们目标页面列表中的一篇文章，然后点击鼠标右键，查看页面源代码，找到文章titile所在的位置

[代码]xml代码：

国家海洋局公布钓鱼岛及其部分附属岛屿坐标

能够看到这样一段代码。他这个还不太好弄，did这个属性估计是变动的，不太好锁定。

如果不是变动的，我们直接这样写就可以：

[代码]xml代码：

[内容]

既然是变动的，我们就采集他的title吧，就采用默认的标题采集方法：

[代码]xml代码：

[内容]

注意：填写代码的时候，一定要注意大小写，如果源文件是大写，填入的时候也一定要大写

然后再看文章内容的匹配规则

找到正文的所在位置：

[代码]xml代码：

　　外交部亚洲司司长罗照辉约见东北亚、东南亚、南亚、欧盟及俄罗斯等驻华使节，就近期钓鱼岛及中日关系问题作通报
　　原标题：外交部亚洲司司长就钓鱼岛问题向驻华使节吹风
　　中新网9月15日电据外交部网站消息，2012年9月14日，外交部亚洲司司长罗照辉约见东北亚、东南亚、南亚、欧盟及俄罗斯等驻华使节，就近期钓鱼岛问题和中日关系作专门通报，并回答了使节们的相关提问。