140 likes | 389 Views
PHPCMS 使用指南及二次开发向导 --- 采集篇. www.phpcms.cn. 采集篇 采集实例介绍 网址规则 内容规则 自定义规则 高级配置 发布采集内容 导入 / 导出采集规则. 一、采集实例 本教程以采集新浪新闻为例子,对 V9 采集系统进行介绍,首先看一下,采集要求:. 采集目标网址: http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml 要求:只采集中间新闻列表,其它链接不采集. 说明 :只采集此处新闻列表. 网址规则
E N D
PHPCMS 使用指南及二次开发向导--- 采集篇 www.phpcms.cn
采集篇 • 采集实例介绍 • 网址规则 • 内容规则 • 自定义规则 • 高级配置 • 发布采集内容 • 导入/导出采集规则
一、采集实例 本教程以采集新浪新闻为例子,对V9采集系统进行介绍,首先看一下,采集要求: 采集目标网址:http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml 要求:只采集中间新闻列表,其它链接不采集 说明:只采集此处新闻列表
网址规则 设置目标网址,然后设置目标网址开始和结束标记(以便从此处获取网址),如下图所示: 目标网址有多种设置方案,不同方案填写不同的规则。 获取网址的设置,为目标网页源代码中, 全页面唯一的开始处代码和全页面唯 一的结束时代码。 主要是为了定位获取网址的位置!以便精确获取要采集的网址! 此二处必须是目标网页源代码中,唯一的存在!
内容规则 设置目标网址,然后设置目标网址开始和结束标记(以便从此处获取网址),如下图所示: 标题:用了<title>和</title>作为边界,由于title中都含有“_新闻中心_新浪网”这里用了信息替换功能。 来源:同标题设置 内容:<!-- 正文内容 begin -->和<!-- 正文内容 end -->作为边界, 并把内容里面的js,或者div都去除掉,这个需要你根据情况设置。 1、匹配规则请设置开始和结束符,具体内容使用“[内容]”做为通配符 。2、过滤选项格式为“要过滤的内容[|]替换值”,要过滤的内容支持正则表达式,每行一条。
自定义规则 何时用到自定义规则:如果系统提供的规则不够,或者你想重新定义适合语意的规则,则可以通过自定义规则来操作,规则的操作配置原理和内容规则部分是一样的,如下图所示: 实例:以采集下载列表为实例,介绍如下: 自定义规则的中英文名称。 匹配规则:同标题设置
高级配置 此项是对采集规则时的配置,比较简单,如下图所示: 提示:如果选择 下载图片 ,因为图片保存到服务器采集时速度会稍慢一些.
二、采集并发布内容 配置完毕采集规则,接下来我们将进行信息采集的操作,步骤如下图所示: 提示:在正式采集数据之前,我们可以先测试一下采集,看配置的规则是否有问题.
采集并发布内容 配置完毕采集规则,接下来我们将进行信息采集的操作,步骤如下图所示: 采集步骤:系统依次进行 采集网址 -> 采集内容 -> 内容的发布。
发布内容 采集完毕以后,就可以进行信息的发布了,步骤如下图所示: 选择要发布的内容 选择要导入的栏目
发布内容 采集完毕以后,就可以选择字段对应,进行信息的发布了,步骤如下图所示: 与栏目字段对应的采集字段 所选栏目对应字段
发布内容结果 采集到的数据导入到 军事新闻 栏目以后,至此采集内容已经完全操作完成,结果如下图所示: 提示:发布完成后,可以通过更新对应栏目和栏目下的内容页就行了。
三、采集规则的导入与导出 写好的采集规则,可以导出成文件形式,以备其它地方使用,如下图所示: