410 likes | 498 Views
可视化与情报学. 彭奇志 2008.9.18. 1 可视化的发展历程. 3 个阶段: 科学计算可视化; 信息可视化; 知识可视化。. 可视化的提出. 1987 年美国国家科学基金会举办的可视化会议,首次正式提出可视化这一术语。 可视化是一种计算和处理的方法,它将抽象的符号表示成具体的几何关系,使研究者能亲眼看见他们所模拟和计算的结果,使用户看见原本不能看见的东西。. 可视化的目的. 通过这种视觉的方法提供一种新的科学洞察分析方法,从而弥补现有科学分析方法的缺陷。
E N D
可视化与情报学 彭奇志 2008.9.18
1 可视化的发展历程 • 3个阶段: • 科学计算可视化; • 信息可视化; • 知识可视化。
可视化的提出 • 1987年美国国家科学基金会举办的可视化会议,首次正式提出可视化这一术语。 • 可视化是一种计算和处理的方法,它将抽象的符号表示成具体的几何关系,使研究者能亲眼看见他们所模拟和计算的结果,使用户看见原本不能看见的东西。
可视化的目的 • 通过这种视觉的方法提供一种新的科学洞察分析方法,从而弥补现有科学分析方法的缺陷。 • --Hansen C D,Johnson C R.The visualization handbook[M].[S.1]:Elsevier Inc,2005
可视化研究的加深 • 1989年,Robertson,Card和Mackinlay在《用于交互性用户界面的认知协处理器》 一文中首次提出了“信息可视化” 这个概念。 • 信息可视化作为一个学科逐渐成长起来。而实际上信息可视化的提出是基于3D动画提出的。 • --Robertson G,Card S K ,Mackinlay J D.The cognitive eoprocessor for interactive user interfaces[C]//Proceedings of the ACM SIGGRAPH symposium on user interface software and technology,1989:10-18
知识可视化 • 是在科学计算可视化、数据可视化、信息可视化基础上发展起来的新兴领域,它应用视觉表征手段,促进群体知识的传播和创新。 • -Eppler M J,Burkand R A.Knowledge visualization:towards a new discipline and its fields of application[D].Lugano: University of Lugan o,2004 • --周宁,陈勇跃,金大卫.知识可视化与信息可视化比较研究[J].情报理论与实践,2007,30(2):178-181
知识可视化指的是所有可以用来建构和传达复杂知识的图解手段。知识可视化指的是所有可以用来建构和传达复杂知识的图解手段。 • 除了传达事实信息之外,知识可视化的目标在于传输见解、经验、态度、价值观、期望和预测等,并以这种方式帮助他人正确地重构、记忆和应用这些知识。 • -赵国庆,黄荣怀.知识可视化理论与方法[J].开放教育研究,2005,11(1):23-27
2 信息时代情报分析的关键环节 • 信息时代,情报学从对文献的研究已扩大到对信息和知识的研究,情报分析也逐渐演变为信息分析。 • 一个完整的信息分析系统应包括信息组织、信息检索、信息分析和信息服务四要素。
2.1 信息组织 • 信息组织是对信息的序化或整序,它是信息管理和信息分析的前提条件。 • 传统的信息组织:以文献为主要研究对象,采用手工编制目录、索引、文献、综述等形式进行信息组织。 • e时代的信息组织: XML、RDF(Resource Description Framework)、元数据、网络技术、语义网和本体等信息技术组织信息。
2.2 信息检索 • 信息检索指“将信息按照一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程” 。 • 信息检索经历: • 机械化检索--自动化检索--联机检索--网络检索4个发展过程。 • 自动化检索,自动标引、自动文摘和自动分类。
2.3 信息分析 • 信息分析是进行情报研究的一个重要环节,是理解信息的关键,它是以对已知信息的内容进行整序和科学抽象为主要特征的一项信息深加工活动,目的是为了产生具有决策作用的增值信息,以便更好地开发和利用信息资源 。 • 传统的信息分析方法包括定性分析方法和定量分析方法两大类。定性分析方法包括因素分解法、逻辑方法、历史比较法、社会调查法和德尔菲法。 • 定量分析方法包括时间序列分析法、因子分析法、聚类分析法、引文分析法、主成分分析法和层次分析法等。 • 定性分析和定量分析经常结合使用。
2.4 信息服务 • 信息服务是指根据用户的需求,提供有用 • 的显性知识(如用文字、图像、符号表述的印刷品或电子产品)内容的一切信息服务性活动。 • 信息组织、信息检索和信息分析都是信息服务的手段。 • 信息组织和信息检索是基础性的信息服务,而信息分析则是增值性的信息服务。
3 可视化在情报分析的应用与发展 • 实现对信息的理解是情报学研究的终极目的,情报学研究的最终成果应该实现对信息理解。可视化这种方法具有“一图胜千言” 的强大理解力。 • 可视化20年发展历程,可视化已渗透到情报学的各个领域。
3.1 可视化与信息组织 • 本体和语义网是新兴的信息组织方式,它们的应用将促进信息组织向知识组织发展。由于本体之间关系的复杂性,引入可视化技术表现本体,能加深人们对信息的理解和认识。本体可视化的发展已取得了一定的进展,开发出了一些比较成熟的本体可视化工具,如Protege和Kano,它们都能提供多种可视化技术表达本体。 Protege由斯坦福大学研究设计,它是目前比较完善的一种本体支持工具。 • 目前已有很多专业领域的本体利用Protege构建。 • Protege 使用到的可视化方法包括分类浏览器、Jambalaya、TGVizTab和OntoViz等。分类浏览器提供了一个Windows浏览器界面,通过分层的方法表达本体之间的关系。
3.2 可视化与信息检索 • 传统信息检索模式利用主题词、关键词和摘要等相关项进行检索,实际上是将提问词与文献标引词进行严格匹配。 • 传统信息检索模式对用户来讲是一个不透明的黑箱,用户输入检索词后,检索过程交给计算机处理,计算机系统怎样实现检索词与文献标引词的匹配,以及怎样对检索结果进行排序等对用户都是不透明的。
信息检索可视化 • 信息检索可视化是将信息资源、用户提问、信息检索模型、检索过程以及检索结果中各种语义关系转换成图形,显示在一个二维、三维或多维的可视化空间中,帮助用户理解检索结果、把握检索方向,以提高信息检索的效率与性能。 • 检索可视化技术应用可以贯穿到整个信息检索过程。
信息检索可视化de意义 • 信息检索可视化为用户提供了一个良好的人机交互环境,能根据用户的需求,自动调整检索策略,并使检索过程变得透明,从而加大了人们对信息检索过程的控制能力。对于检索结果,可视化的信息检索环境则向用户提供了更为丰富的信息,除检索结果外,还能反映出文献之间的联系及文献与引文之间的联系等。
检索过程可视化 • 检索过程可视化包括操作方法可视化与操作过程可视化两方面。 • 操作方法可视化指用户在与检索系统交互时,采用可视化的图标进行操作,只需要点击按钮、选择菜单项就可以向系统传达命令,无需输入复杂的命令行参数或者提问式。 • 操作方法的可视化除了需要美观清晰的检索界面外,还应当合理设计检索过程中的命令处理逻辑。
操作过程的可视化 • 操作过程的可视化指用户能够以可视的方式执行并跟踪各个检索步骤。 • 目前的信息检索系统一般会向用户提供直接查询和浏览两种服务。 • 可视化技术可以应用到提问式的构造中,帮助用户更加准确、容易地表达检索需求。检索提问的可视化改变了传统的以文本输入框作为检索需求的表达方式,用户能够构造图形化的检索提问,例如通过拖拉、选择和绘图的方式输入检索词和进行逻辑组配。可视化技术与语义扩展技术结合,还能形象直观地揭示出概念间的关系,帮助用户替换、扩充或缩减检索词,从而更准确地表达检索需求。
提问与集合的匹配计算可视化 • 利用二维或三维的图像图形将运算中的公式及其变换过程展现在用户面前,能够使复杂的过程变得清晰、易于理解,并使用户可以直接调整计算中的各种参数,以改进检索结果。
实时交互 • 以上的检索过程应当支持用户与系统的实时交互,记录下用户的检索历史,保证用户动态调整检索用词和各种参数,并及时、连续、可视化地将结果反馈给用户。 • 交互控制技术(例如动态查询与过滤Dynamic Queries/Dynamic Query Filters)
浏览可视化 • 检索系统提供给用户的另一种服务是按照字顺或分类、主题等信息组织方式浏览信息资源。在这一过程中,用户一方面可能意外地发现所需要的信息,另一方面通过对分类类目或主题词表的查看,确定所要查找资源的位置或范围,或者选择更适当的检索词,改进检索提问。 • 知识组织系统的可视化是信息检索可视化的一项重要任务。可视化的知识组织系统更便于用户浏览,把握某个领域内的知识结构及概念间的相互关系,从而形成更为有效的检索策略和提问。
检索结果可视化 • 检索结果的可视化主要致力于设计一个接口显示所有检索结果,揭示检索结果与提问、结果与结果之间的关系,以便用户对检索结果进行浏览和操作。检索结果的可视化能够充分发掘信息资源的价值,帮助用户更好地理解和利用信息。
一个任务就是对命中的信息集合进行组织、整合,并以某种方式呈现给用户,使用户既能从整体上查看,也能针对每一条记录进行操作。对于大量的信息,如何在用户的工作空间(例如一个界面内或一个窗口中) 将其有效地组织和显示是信息可视化研究的一个重要问题。 • 位置探查、视点控制、变形等视图变换技术,以在有限的可视空间中展现更为宽广的信息空间。
另一个任务是利用统计、聚类、关联分析等手段对命中信息集合进行分析处理,揭示检索结果中隐藏的规律和联系,并用预先制定的视图形式向用户展现。另一个任务是利用统计、聚类、关联分析等手段对命中信息集合进行分析处理,揭示检索结果中隐藏的规律和联系,并用预先制定的视图形式向用户展现。 • 目前,基于分类的文档簇法是揭示检索结果的一种常用方法,而在揭示检索结果之间的关系上采用的方法主要包括基于超链接法和基于语义内容法。
信息检索可视化系统 • 目前已有一些信息检索的可视化系统投入应用。如用于对一个文献全文进行可视化处理的TileBars、通用信息检索可视化平台Visual Net,对ACM Computing Classification System信息系统进行可视化信息管理的GRIDL和基于空间距离和角度的信息检索可视化系统DARE。 • Most Web-based visualizations systems allow the user to see document interrelationships and to select items for a closer review.
Integrating information visualization and retrieval for WWW information discovery
TouchGraph • Document sets are visualized by TouchGraph, which is a Java-based open source package that provides users with an interface to submit a query and visually browse the resulting set of items that are related to that query. • The TouchGraph interface is implemented as a visual analog, similar to Google’s API (Application programming Interface) feature and the recommendation feature found at Amazon.com. The node containing the query term is located toward the center of the display with lines connecting related nodes. These nodes may be expanded to reveal additional related nodes (Fig. 9).The size of the document set is dependent upon how any items are retrieved in the search and a TouchGraph feature allows the user to adjust the number of node links.
a part of the entire document set is selected by the user to visualize Web sites that that are linked and similar to the selected set.
NSDL uses Inxight’s hyperbolic tree to visualize their document collection by subject.Nodes on the tree can be expanded to view additional information regarding the collection
MapStan:街道的宽度与城市广场的大小与访问站点的用户数量大小成比例MapStan:街道的宽度与城市广场的大小与访问站点的用户数量大小成比例
3.3 可视化与信息分析 • 数据挖掘是一种信息分析常用的技术,它是从大量的数据中挖掘出有用的信息,即从大量的、不完全的、有噪声的、模糊的、随机的数据集中发现隐含的、规律性的、人们事先未知的,但又是潜在有用的并且最终可理解的信息和知识的非平凡过程。 • --张云涛,龚玲.数据挖掘原理与技术[M].北京:电子工业出版社,2004
可视化数据挖掘技术 • 数据挖掘成熟的理论方法为发现显性信息背后隐藏的隐性知识提供了强有力的技术依据。然而,数据挖掘是一门多学科的交叉技术,它是在统计学、数据库和人工智能等学科基础上发展起来的,数据挖掘算法本身都相当复杂,所以一般的用户难以理解和接受。 • 可视化技术引入到数据挖掘中,产生可视化数据挖掘技术。 • 可视化数据挖掘充分利用可视化的直观性,从可视化角度分析和理解数据挖掘的全过程,最大限度地弥补了数据挖掘算法复杂性这一缺陷。可视化数据挖掘的出现为用户提供了一种易于理解的信息分析工具,提高了人们理解信息的能力。
可视化数据挖掘 • 可视化数据挖掘包括数据预处理阶段的可视化、数据挖掘过程的可视化和数据挖掘结果的可视化。目前的可视化数据挖掘工具能够提供常用的挖掘技术,但可视化技术的应用仍然有限,主要体现在数据预处理阶段的可视化和对数据挖掘结果的可视化,对数据挖掘过程的可视化的研究还比较薄弱。
3.4 可视化与信息服务 • 数字图书馆是信息服务的典型代表,在数字图书馆中,可视化的应用主要体现在信息资源的可视化、信息检索的可视化和人机界面的可视化。数字图书馆为用户提供了一个虚拟的图书馆环境,在这个虚拟的信息环境中,用户可以很好地从视觉上实现和计算机的交互,实现信息的检索和浏览。构建一个数字图书馆要综合运用到信息组织技术、信息检索技术和信息分析技术,因此,可视化与情报分析的应用能在数字图书馆中得到集中体现。
Visual Net是可视化在数字图书馆应用中的一个案例。 • 它将Belmont Abbey学院图书馆的馆藏投影到一个以等级结构为基础的可视化主题地图上。在这个可视化主题地图上,用户可以进行数据挖掘,数据检索,寻找所需的资料。它的可视化空间实际上是一个语义地图。在对图书资源的馆藏分布上,Visual Net采用文献图标释义图,用图标的中心圆、白色圆和绿色圆分别代表文献的类型、文献的长短和文献的新旧,蓝色箭头代表文献是外文文献,黄色箭头代表文献是参考文献。用户可以通过点击这种表达清晰的图标选择所需文献。
4 可视化在情报学应用中存在的问题 • 可视化技术虽然已趋于成熟,但却并没有得到更加广泛的应用,造成这种情况的原因是可视化是一门涉及多个学科的交叉学科,而情报研究人员大多不是技术人员,因此导致情报人员有时对可视化方法感到无所适从,不知怎么使用这些可视化技术为情报分析服务,造成其应用受限。面对可视化这一新涌现的热点问题,研究者们开始在各个领域展开对可视化的研究,试图让可视化成为自己领域内的有力工具。