810 likes | 971 Views
信息检索与利用讲座. 信息检索与利用讲座 一、信息化社会生存策略 二、计算机信息检索技术 三、中国学术期刊全文数据库( CNKI ) 四、搜索引擎 Google 的使用 五、科技论文写作指南. 一、信息化社会生存策略. (一)现代人应具备信息素质 信息素质包括两个方面: ( 1 )信息意识 信息意识是指对知识信息重要性的认识和对知识信息的 敏感性。 ( 2 )信息能力 信息能力是指获取、加工、利用和创新知识信息的能 力,其重点和基础是信息检索能力。. 信息化社会生存策略. (二)现代人信息化生存策略
E N D
信息检索与利用讲座 一、信息化社会生存策略 二、计算机信息检索技术 三、中国学术期刊全文数据库(CNKI) 四、搜索引擎Google的使用 五、科技论文写作指南
一、信息化社会生存策略 (一)现代人应具备信息素质 信息素质包括两个方面: (1)信息意识 信息意识是指对知识信息重要性的认识和对知识信息的 敏感性。 (2)信息能力 信息能力是指获取、加工、利用和创新知识信息的能 力,其重点和基础是信息检索能力。
信息化社会生存策略 (二)现代人信息化生存策略 ● 信息化生存包括数字化生存、网络化生存和智能化生存。 数字化、网络化构成了人们生存的信息环境; 智能化是有效发挥知识信息的功能、解决问题、克服危机和创造 财富的最佳方式。 ● 全球数字化信息近年来增长迅猛,据一项最新研究结果称,2006年全球产生的数字化信息总量达1610亿吉比特,其中原创信息为400亿吉比特。而到2010年,全球产生的数字化信息总量有望达到9880亿吉比特。 ● 具有较高信息素质的人,就应表现出有良好的信息意识、敏捷的信息思维以及较强的信息能力。 (1)培养良好的信息意识 (2)注重提高信息检索能力
二、计算机信息检索技术 1.布尔逻辑检索 在检索实际中,检索提问涉及的概念往往不止一个,而同一个概念又往往涉及多个同义词或相关词。为了正确地表达检索提问,系统中采用布尔逻辑运算符将不同的检索词组配起来,使一些具有简单概念的检索单元通过组配成为一个具有复杂概念的检索式。 (1)逻辑“与” 逻辑“与”(用and或*表示)是一种用于交叉概念或限定关系的组配,它可以缩小检索范围,有利于提高检索的专指性。如欲查同时含有概念A和概念B的文献,可表示为:“A and B”或“A*B”。
(2)逻辑“或” 逻辑“或”(用OR或“+”表示)是用于具有并列概念关系的组配。这种组配可以扩大检索范围,提高查全率。例如,检索含有检索项A或检索项B的文献,可表示为:“A OR B”或“A+B”。检索结果是将含有检索项A的文献集合与含有检索项B的文献集合相加,形成一个新的集合。检索结果如图中阴影部分即为包含A或B的命中文献。图中两者共同的部分只计一次,故避免了命中文献的重复出现。 (3)逻辑“非” 逻辑“非”(用“NOT”或“-”表示)是用于从某一检索范围中排除不需要的概念。这种组配可以缩小检索范围。例如,在含有概念A的文献集合中,排除同时含有概念B的文献,可表示为:“A NOT B”或“A-B”。检索结果如图中阴影部分即为包含A且排除B的命中文献。
2.位置检索 位置检索也叫全文检索、邻近检索。所谓全文检索,就是利用记录中的自然语言(关键词)进行检索,词与词之间的逻辑关系用位置算符组配,对检索词之间的相对位置进行限制。 不同的检索系统其位置检索的表示方式是不同的 • Ei Village中的位置算符仅采用Near一种形式,表示两个检索词彼此接近且两词之间最多不超过5个词,前后顺序不限。 • CSA Illumina中的位置检索为: ①词间无算符,即表示将检索词作为一个词组来检索 ②WITHIN“x”,表示在指定的半径内(x个词)查找输入词,词序不限 ③NEAR,在相距不大于10个词的范围内查找输入词,相当于 within 10 ④BEFORE,按照输入检索词相应的顺序查找 ⑤AFTER,按照第1个词在第2个词之后的相应顺序查找
IEL中的位置检索采用以下算符 : ①<paragraph>,表示算符两边的检索词必须出现在同一段落内,两个检索词的顺序可以前后颠倒; ②<sentence>,表示算符两边的检索词必须出现在同一句子内,两个检索词的顺序可以前后颠倒; ③ <phrase>,表示算符两边的检索词必须出现在同一短语内,两个检索词的顺序可以前后颠倒; ④<near/n>,表示两个检索词相邻,中间相隔最多n个词,两个检索词的顺序可以前后颠倒。
3.截词检索 ●截词检索是计算机检索系统中应用非常普遍的一种技术。由于西文的构词特性,在检索中经常会遇到名词的单、复数形式不一致;同一个意思的词,英美拼法不一致;词干加上不同性质的前缀和后缀就可以派生出许多意义相近的词等等。 ●为了保证查全,就得在检索式中加上这些具有各种变化形式的相关意义的检索词,这样就会出现检索式过于冗长,输入检索词的时间太久,同时也占太多机时。截词检索就是为了解决这个问题而设计的,它既可保证不漏检,又可节约输入检索式的时间。 ●所谓截词,就是指对输入的检索词在适当位置截断。
常用的截词符有“?”、“*”、“#”、“$”等多种表示形式,常用的截词符有“?”、“*”、“#”、“$”等多种表示形式, 不同的检索系统其截词符的表示形式和截词检索的方式是不同的: • Ei Village中的截词符为: “*”用于词中或词后表示可以代替多个字符,检索出相同词干的任意多个 变化的词,例如,输入optic*可检索出optic,optics, optical等 “?”用于词中表示可以代替一个字符,例如,输入 wom?n 可检索出 woman ,women • OCLC中的截词符为: + 用于词尾,表示同时检索该词的单数和复数(仅限于s和es形式) * 用于词尾,表示可检索相同词根的所有词,但词根不得少于3个字符 # 用于单词当中,只代表一个字符 ? 用于单词当中,可代表一串字符
4.字段限定检索 字段限定检索是指限定检索词在数据库记录中的一个或几个字段范围内查找的一种检索方法。 不同的检索系统其字段限定检索的表示方法亦不尽相同: • EI Village中的限定字段检索采用within命令(简化为wn)和字段代码限定在特定的字段内进行检索,限定字段检索的输入格式为:检索词 wn 字段代码,如:computer wn TI • ISI Web of Knowledge中的字段限定检索格式为:字段代码=检索词, 如:ti=computer • USPTO中的字段限定检索输入格式为:字段代码 / 检索词, 如:TTL/computer • PQDD中的字段限定检索规则是:字段名或字段代码后跟用括号括起来的检索词,如: title(biology), au(Smith, Robert) • IEL中的字段限定检索采用<in>算符,其格式为:检索词<in>字段代码,如:(fiber optic <and> network) <in>ti • CNKI中的字段限定检索规则是:字段名=检索词,如:题名=计算机
中国学术期刊全文数据库概述 • 《中国学术期刊全文数据库》是目前世界上最大的连续动态更新 • 的期刊全文数据库,也是世界上应用最广、功能最全、数据量最 • 大的动态知识信息库之一。它是CNKI知识创新网中最具特色的 • 一个文献信息数据库。 • CNKI即中国知识基础设施(China National Knowledge • Infrastructure)工程,是由清华同方光盘股份有限公司、中 • 国学术期刊(光盘版)电子杂志社、光盘国家工程研究中心等 • 单位,于1999年6月在《中国学术期刊(光盘版)》(CAJ-CD)和 • 中国期刊网(CJN)全文数据库建设的基础上研制开发的一项 • 规模更大、内容更广、结构更系统的知识信息化建设项目。 • 中国期刊全文数据库是在《中国学术期刊(光盘版)》的基础 • 上开发的基于因特网的一种大规模集成化、多功能动态学术期 • 刊全文检索数据库。
中国学术期刊全文数据库概述 • 收录范围:我国正式出版的期刊(含英文版)全文文献。 • 文献总量:截至2006年底收录7500种期刊,其中科技类期刊4531种,人文社 科类期刊2969种,文献量1600多万篇。 • 收录年限:1994年至今。 • 收录完整率:期刊种数完整率、核心期刊完整率、文献收录完整率、文献收 录册数完整率、全文信息完整率均不低于99.9%。 • 出版时效:不低于纸质期刊出版之后2个月。 • 更新频率:每日更新。 • 内容覆盖: 理工A(数理科学)、理工B(化学化工能源与材料)、理工C (工业技术)、农业、医药卫生、电子技术与信息科学、文史哲、 政治军事法律、经济与管理、教育与社会科学10个专辑,168个专 题类目。
十大专辑及包括类目 理工A辑 数学、力学、物理、天文、气象、地质、地理、海洋、生物、自然科学综合(含理科大学学报) 理工B辑 化学、化工、矿冶、金属、石油、天然气、煤炭、轻工、环境、材料 理工C辑 机械、仪表、计量、电工、动力、建筑、水利工程、交通运输、武器、航空、航天、原子能技术、综合性工科大学学报 农业专辑 农业、林业、畜牧兽医、渔业、水产、植保、园艺、农机、农田水利、生态、生物 医药卫生专辑 医学、药学、中国医学、卫生、保健、生物医学 文史哲专辑 语言、文字、文学、文化、艺术、音乐、美术、体育、历史、考古、哲学、宗教、心理 政治军事与法律专辑 政治学、行政学、思想政治教育、军事、国家行政管理、国际法、宪法、刑法、民法、诉讼法、司法 教育与社会科学专辑 各类教育、社会学、统计、人口、人才、社会科学综合(含大学学报哲社版) 电子技术及信息科学专辑 电子、无线电、激光、半导体、计算机、网络、自动化、邮电、通讯、传媒、新闻出版、图书情报、档案 经济与管理专辑 经济、商贸、金融、保险、投资、会计、审计、统计、 管理学、领导与决策学、系统学、科学研究管理
二次检索 二次检索区
四、搜索引擎Google的使用 (http://www.google.com) • Google是从第一代搜索引擎中脱颖而出的第二代搜索引擎的代表。 • 1998年,两位斯坦福大学的博士生Larry Page和Sergey Brin创立了Google,它的使命就是要为用户提供网上最好的查询服务,促进全球信息的交流。 • Google开发出了世界上最大的搜索引擎,提供了最便捷的网上信息查询方法。 • 通过对20多亿网页进行整理,可为世界各地的用户提供适合需要的搜索结果,而且搜索时间通常不到半秒 • 现在,Google每天提供1.5亿次查询服务
Google的技术特点 (1)Google并非只使用关键词或代理搜索技术,它将自身建立在高级的PageRank™(网页级别)技术基础之上,这项技术可确保始终将最重要的搜索结果首先呈现给用户。 (2)网页级别可对网页的重要性进行客观的分析。用于计算网页级别的公式包含5亿个变量和20多亿个项。网页级别利用巨大的网络链接结构对网页进行组织整理。实质上,当从网页A链接到网页B时,Google就认为“网页A投了网页B一票”。 (3)Google复杂的自动搜索方法可以避免任何人为感情因素。与其他搜索引擎不同,Google的结构设计即确保了它绝对诚实公正,任何人都无法用钱换取较高的排名。Google可以诚实、客观并且方便地帮助用户在网上找到有价值的信息。
Google的检索方法 • 1.分类检索 • 在Google首页中选择“网页目录”(Directory),即可进入Google分类目 • 录检索界面。 • Google网页目录是依网页主题归类,分为十四个大类,每个大类又细分 • 为若干小类: • 休闲:旅游,运动,饮食, ...地区:亚洲, 北美洲, 欧洲, ... • 体育:足球,奥林匹克,羽毛球, ...家庭:宠物, 园艺, 家庭育婴, ... • 健康:疾病与症状,医学,药物与药品,...新闻:电视, 报纸, 杂志刊物, ... • 参考:教育, 图书馆, 博物馆, ...游戏:互联网,电动游戏,电脑游戏, ... • 商业:化工,工业产品与服务,电器与电子,...社会:人物, 法律, 历史, 宗教, ... • 科学:科技, 生物学, 农业, 天文学, ...艺术:文学, 音乐, 电影, 动画,... • 计算机:互联网络, 软件, 硬件, ...购物:鲜花,服装饰品,计算机及其配件... • 该目录里目前收录了来自150万个以上网站的网页。用户可按相关类目进 • 行检索。例如,在Google目录的Science > Astronomy > Solar System • 类别中搜索“Saturn”,可以找到只与Saturn(土星)有关的信息。而不 • 会找到“Saturn”牌汽车、“Saturn”游戏系统,或“Saturn”的其它含义。
2.关键词检索 • Google关键词检索分为基本检索和高级检索 • Google基本检索界面查询简洁方便,仅需输入查询内容并按一 • 下回车键 (Enter),或单击“Google Search”按钮即可得到相关 • 资料。Google查询严谨细致,能帮助用户找到最重要、最相关 • 的内容。例如,当Google对网页进行分析时,它也会考虑与该 • 网页链接的其它网页上的相关内容。Google还先列出那些搜索 • 关键词相距较近的网页。 • 自动使用“and”进行查询。 Google只会返回那些符合用户的全 • 部查询条件的网页。不需要在关键词之间加上“and”或“+”。如 • 果您想缩小搜索范围,只需输入更多的关键词,只要在关键词 • 中间留空格就行了。
忽略词。Google会忽略最常用的词和字符,这些词和字符称为忽略词。Google会忽略最常用的词和字符,这些词和字符称为 • 忽略词。Google自动忽略“http”, “.com”和“的”等字符以及 • 数字和单字,这类字词不仅无助于缩小查询范围,而且会大大 • 降低搜索速度。使用英文双引号可将这些忽略词强加于搜索 • 项。 • 例如:输入“柳堡的故事”时,加上英文双引号会使“的”强加于 • 搜索项中。 • 根据上下文确定要查看的网页。每个Google搜索结果都包含从 • 该网页中抽出的一段摘要,这些摘要提供了搜索关键词在网页 • 中的上下文。
简繁转换。Google运用智能型汉字简繁自动转换系统,为用简繁转换。Google运用智能型汉字简繁自动转换系统,为用 • 户找到更多相关信息。这个系统不是简单的字符变换,而是 • 简体和繁体文本之间的“翻译”转换。 • 例如,简体的“计算机”会对应于繁体的“电脑”。当用户搜索 • 所有中文网页时,Google会对搜索项进行简繁转换后,同时 • 检索简体和繁体网页。并将搜索结果的标题和摘要转换成和 • 搜索项的同一文本,便于阅读。 • Google不使用“词干法”,也不支持“通配符”(*) 搜索。也就是 • 说,Google只搜索与输入的关键词完全一样的字词。 • 例如:搜索“googl”或“googl*”,不会得到类似“googler”或 • “googlin”的结果。
Google搜索不区分英文字母大小写,所有的字母均当做小写处理。Google搜索不区分英文字母大小写,所有的字母均当做小写处理。 • 例如:搜索“google”、“GOOGLE”或“GoOgLe”,得到的结果都 • 一样。 • 利用Google高级搜索可以缩小搜索范围: • ·将搜索范围限制在某个特定的网站中 • ·排除某个特定网站的网页 • ·搜索限制于某种指定的语言 • ·查找链接到某个指定网页的所有网页 • ·查找与指定网页相关的网页
Google的特殊功能 • (1)查找PDF文件 • 除一般网页外,Google现在还可以查找Adobe的可移植文档 • 格式(PDF)文件。 • 虽然PDF文件不象HTML文件那样多,但这些文件通常会包含 • 一些别处没有的重要资料。 • 如果某个搜索结果是PDF文件而不是网页,它的标题前面会 • 出现以蓝色字体标明的 [PDF]。这样,用户就知道需要启动 • Acrobat Reader程序才能浏览该文件。 • 单击 [PDF] 右侧的标题链接就可以访问这个PDF文档。对于 • PDF文件,常见的“网页快照”将被“文本文件”所替代。文本文 • 件是PDF文档中的纯文本内容,不带任何格式。 • 如果用户只想查找一般网页,而不要PDF文件,只需在搜索 • 关键词后加上 -filetype:pdf就可以了。
(2)网页快照 • Google在访问网站时,会将看过的网页复制一份网页快照, • 以备在找不到原来的网页时使用。 • 单击“网页快照”时,将看到Google将该网页编入索引时的页 • 面。Google依据这些快照来分析网页是否符合用户的需求。 • 在显示网页快照时,其顶部有一个标题,用来提醒这不是实 • 际的网页。 • 符合搜索条件的词语在网页快照上突出显示,便于快速查找 • 所需的相关资料。 • 尚未编入索引的网站没有“网页快照”,另外,如果网站的所 • 有者要求Google删除其快照,这些网站也没有“网页快照”。
(3)类似网页 • 单击“类似网页”时,Google侦察兵便开始寻找与这一网页相关 • 的网页。 • Google侦察兵可以“一兵多用”。如果您对某一网站的内容很感 • 兴趣,但又嫌资料不够,Google侦察兵会帮您找到其他有类似 • 资料的网站。 • 如果您在寻找产品信息,Google侦察兵会为您提供相关信息, • 供您比较。 • 如果在某一领域做学问,Google侦察兵会成为您的助手,帮您 • 快速找到大量资料。 • Google侦察兵已为成千上万的网页找到了类似网页,但网页越 • 有个性,能找到的类似网页就越少。
(4)按链接搜索 • 有一些词后面加上冒号对Google具有特殊的含义。其中的一个 • 词是“link:”。查询link:显示所有指向该网址的网页。 • 例如 “link:www.google.com”将找出所有指向Google主页的网 • 页,不能将link:搜索与普通关键词搜索结合使用。 • (5)指定网域 • 有一些词后面加上冒号对Google有特殊的含义。其中的一个词 • 是“site:”。 • 要在某个特定的域或站点中进行搜索,可以在Google搜索框中 • 输入“site:xxxxx.com”。
(6)手气不错 • 按下“手气不错™”按钮将自动进入Google查询到的第一个网 • 页,您将完全看不到其它的搜索结果。 • 使用“手气不错”进行搜索表示用于搜索网页的时间较少而用于 • 检查网页的时间较多。 • 例如,要查找Stanford大学的主页,只需在搜索字段中输入 • “Stanford”,然后单击“手气不错”按钮。Google将直接带您进 • 入Stanford大学的官方主页www.stanford.edu。
六、科技论文写作指南 科技论文是科技发展及现代化建设的重要科技信息源,是记录人类科技进步的历史性文献。 • 什么是科技论文? • 它与一般的科技文章有什么不同? • 怎样写好科技论文? 这些都是广大科技工作者感兴趣的问题。 本“科技论文写作指南”,旨在解决以上问题,以期进一步 提高科技论文的整体水平。
科技论文写作指南 (一)科技论文的含义 • 科学技术论文简称科技论文。它一般包括:报刊科技论文、学年论文、毕 • 业论文,学位论文(又分学士、硕士、博士论文)。 • 科技论文是在科学研究、科学实验的基础上,对自然科学和专业技术领域 • 里的某些现象或问题进行专题研究,分析和阐述,揭示出这些现象和问题 • 的本质及其规律性而撰写成的文章。也就是说,凡是运用概念、判断、推 • 理、论证和反驳等逻辑思维手段,来分析和阐明自然科学原理、定律和各 • 种问题的文章,均属科技论文的范畴。 • 科技论文主要用于科学技术研究及其成果的描述,是研究成果的体现。运 • 用它们进行成果推广、信息交流、促进科学技术的发展。它们的发表标志 • 着研究工作的水平为社会所公认,载入人类知识宝库,成为人们共享的精 • 神财富。科技论文还是考核科技人员业绩的重要标准。
科技论文写作指南 (二)科技论文的特点 1.科学性 是科技论文在方法论上的特征,使它与一切文学的、美学的、神学等的文章区别开来。它不仅仅描述的是涉及科学和技术领域的命题,而且更重要的是论述的内容具有科学可信性,科技论文不能凭主观臆断或个人好恶随意地取舍素材或得出结论,它必须根据足够的和可靠的实验数据或现象观察作为立论基础。所谓"可靠的"是指整个实验过程是可以复核验证的;
科技论文写作指南 2.首创性 • 是科技论文的灵魂,是有别于其他文献的特征所在。 • 它要求文章所揭示的事物现象、属性、特点及事物运动时所遵循的规律,或者这些规律的运用必须是前所未见的、首创的或部分首创的,必须有所发现,有所发明,有所创造,有所前进而不是对前人工作的复述、模仿或解释;