虚位以待(AD)
虚位以待(AD)
首页 > CMS教程 > DedeCMS > dedecms自带的采集系统用法

dedecms自带的采集系统用法
类别:DedeCMS   作者:码皇   来源:互联网   点击:

本来没有打算写这么早的,想先从安装慢慢讲起,一个朋友问了,并且答应他今天为他出一个教程,就写到这里了。首先进入织梦后台,采集模块——采集节点管理1 找到要采集的目标网站,本次以新浪各地新闻为例:http: r ,魔客吧
本来没有打算写这么早的,想先从安装慢慢讲起,一个朋友问了,并且答应他今天为他出一个教程,就写到这里了。
首先进入织梦后台,采集模块——采集节点管理

1.找到要采集的目标网站,本次以新浪各地新闻为例:http://roll.news.sina.com.cn/news/gnxw/gdxw1/index.shtml (最好为新闻列表页面)。

2.点击增加新节点,进入下面这个页面:


就选择普通文章,点击确定(当然如果采集图片,另说,本文不谈)。进入下一个界面,先看节点基本信息:


节点名称,就是以后采集的时候可以看到是哪个节点,没有别的含义,不过最好输入相关的采集名称,方便以后能够知道,这个节点采集的是什么信息。
目标页面编码:这个一定要填写准确,不然采集到的会是乱码,查看方法:
在目标页面,点击鼠标右键——查看页面源代码
在head标签里面会看到这样一段代码:

[代码]xml代码:


    charset=gb2312这个就是目标页面编码,如果看到的是gbk,同样可以认为是gb2312,都是代表简体中文。一般常见的就是gb2312与utf8。
    下面的都可以不填写。

    3.下面看列表网址获取规则


    个人比较喜欢用手工指定列表网址,就是在手工指定网址框里面,输入要采集的目标网站网址就行了。

    4.文章网址匹配规则。


    区域开始的HTML里面填写目标网址文章列表前的一段代码。
    区域结束的HTML里面,填写目标网址文章列表后的一段代码。
    此处记得,开始前与结束后的这两段代码,都必须是在本目标页面源代码里面独一无二的。否做会采集到别的内容。
    打开目标页面源代码页面,找到文章列表所在的区域:

    [代码]xml代码:

      • 国家海洋局公布钓鱼岛及其部分附属岛屿坐标(09月15日 09:31)
      • 。。。。。。。。。。。。。。。。

    因为太多,下面用省略号代替。他这个列表时用li标签做的,一般看到class我就比较高兴,因为这个一般都是在本页面独一无二的。先尝试一下
    开始区域就填写这句代码:


      结束区域往下看,可以看到这样一句:


      暂时可以先选定这句。填写完成。
      下面先不填,点击保存进入下一步设置
      如果能看到下面这个画面,表示我们采集文章列表网址成功:


      如果是空表,即表示失败,需要重新填写。
      看来我们成功了,然后点击保存信息,进入下一步设置。

      5.进入这个页面,看文章标题匹配规则


      随便打开我们目标页面列表中的一篇文章,然后点击鼠标右键,查看页面源代码,找到文章titile所在的位置

      [代码]xml代码:

        国家海洋局公布钓鱼岛及其部分附属岛屿坐标

      能够看到这样一段代码。他这个还不太好弄,did这个属性估计是变动的,不太好锁定。

      如果不是变动的,我们直接这样写就可以:

      [代码]xml代码:

        [内容]

      既然是变动的,我们就采集他的title吧,就采用默认的标题采集方法:

      [代码]xml代码:

        [内容]

      注意:填写代码的时候,一定要注意大小写,如果源文件是大写,填入的时候也一定要大写


      然后再看文章内容的匹配规则


      找到正文的所在位置:

      [代码]xml代码:

        外交部亚洲司司长罗照辉约见东北亚、东南亚、南亚、欧盟及俄罗斯等驻华使节,就近期钓鱼岛及中日关系问题作通报  外交部亚洲司司长罗照辉约见东北亚、东南亚、南亚、欧盟及俄罗斯等驻华使节,就近期钓鱼岛及中日关系问题作通报

          原标题:外交部亚洲司司长就钓鱼岛问题向驻华使节吹风

          中新网9月15日电 据外交部网站消息,2012年9月14日,外交部亚洲司司长罗照辉约见东北亚、东南亚、南亚、欧盟及俄罗斯等驻华使节,就近期钓鱼岛问题和中日关系作专门通报,并回答了使节们的相关提问。


      看到这样一段代码,我很高兴,以你为太好写入规则了。我们可以这样写入正文的匹配规则:

      [代码]xml代码:

        [内容]


      怎么样,简单吧?
      然后下面的过滤规则要填写以下,一般会过滤掉js代码,及文章中的链接代码。

      点击常用规则,会看到这样一个界面:

      把超链接和javascript脚本两项勾上,然后点击确定即可。此时就会看到过滤规则里面自动填入了内容,然后关闭此窗口即可。
      然后点击保存配置并预览。会看到这样一个界面:


      此时代表内容采集成功,如果为空,则表示要重新填写了。呵呵。。。。。
      好了,列表与内容都采集好了,我们就配置成功了,采集就行了。

      提示:现在百度对采集特反感,不建议网站采集内容。




      相关热词搜索: dedecms自带的采集系统用法