1 / 14

PHPCMS 使用指南及二次开发向导 --- 采集篇

PHPCMS 使用指南及二次开发向导 --- 采集篇. www.phpcms.cn. 采集篇 采集实例介绍 网址规则 内容规则 自定义规则 高级配置 发布采集内容 导入 / 导出采集规则. 一、采集实例 本教程以采集新浪新闻为例子,对 V9 采集系统进行介绍,首先看一下,采集要求:. 采集目标网址: http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml 要求:只采集中间新闻列表,其它链接不采集. 说明 :只采集此处新闻列表. 网址规则

corina
Download Presentation

PHPCMS 使用指南及二次开发向导 --- 采集篇

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. PHPCMS 使用指南及二次开发向导--- 采集篇 www.phpcms.cn

  2. 采集篇 • 采集实例介绍 • 网址规则 • 内容规则 • 自定义规则 • 高级配置 • 发布采集内容 • 导入/导出采集规则

  3. 一、采集实例 本教程以采集新浪新闻为例子,对V9采集系统进行介绍,首先看一下,采集要求: 采集目标网址:http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml 要求:只采集中间新闻列表,其它链接不采集 说明:只采集此处新闻列表

  4. 网址规则 设置目标网址,然后设置目标网址开始和结束标记(以便从此处获取网址),如下图所示: 目标网址有多种设置方案,不同方案填写不同的规则。 获取网址的设置,为目标网页源代码中, 全页面唯一的开始处代码和全页面唯 一的结束时代码。 主要是为了定位获取网址的位置!以便精确获取要采集的网址! 此二处必须是目标网页源代码中,唯一的存在!

  5. 内容规则 设置目标网址,然后设置目标网址开始和结束标记(以便从此处获取网址),如下图所示: 标题:用了<title>和</title>作为边界,由于title中都含有“_新闻中心_新浪网”这里用了信息替换功能。 来源:同标题设置 内容:<!-- 正文内容 begin -->和<!-- 正文内容 end -->作为边界, 并把内容里面的js,或者div都去除掉,这个需要你根据情况设置。 1、匹配规则请设置开始和结束符,具体内容使用“[内容]”做为通配符 。2、过滤选项格式为“要过滤的内容[|]替换值”,要过滤的内容支持正则表达式,每行一条。

  6. 自定义规则 何时用到自定义规则:如果系统提供的规则不够,或者你想重新定义适合语意的规则,则可以通过自定义规则来操作,规则的操作配置原理和内容规则部分是一样的,如下图所示: 实例:以采集下载列表为实例,介绍如下: 自定义规则的中英文名称。 匹配规则:同标题设置

  7. 高级配置 此项是对采集规则时的配置,比较简单,如下图所示: 提示:如果选择 下载图片 ,因为图片保存到服务器采集时速度会稍慢一些.

  8. 二、采集并发布内容 配置完毕采集规则,接下来我们将进行信息采集的操作,步骤如下图所示: 提示:在正式采集数据之前,我们可以先测试一下采集,看配置的规则是否有问题.

  9. 采集并发布内容 配置完毕采集规则,接下来我们将进行信息采集的操作,步骤如下图所示: 采集步骤:系统依次进行 采集网址 -> 采集内容 -> 内容的发布。

  10. 发布内容 采集完毕以后,就可以进行信息的发布了,步骤如下图所示: 选择要发布的内容 选择要导入的栏目

  11. 发布内容 采集完毕以后,就可以选择字段对应,进行信息的发布了,步骤如下图所示: 与栏目字段对应的采集字段 所选栏目对应字段

  12. 发布内容结果 采集到的数据导入到 军事新闻 栏目以后,至此采集内容已经完全操作完成,结果如下图所示: 提示:发布完成后,可以通过更新对应栏目和栏目下的内容页就行了。

  13. 三、采集规则的导入与导出 写好的采集规则,可以导出成文件形式,以备其它地方使用,如下图所示:

  14. Thank you!

More Related