第七讲检索可视化和检索评价

第七讲检索可视化和检索评价 陆铭 66134922 richard.lu@shu.edu.cn mingler.ccshu.org

内容提要 • 检索评价研究 • 信息检索评价的概念 • 研究历史 • 系统评价指标、用户评价指标 • 信息检索相关性模型 • 信息可视化研究 • 一般概念 • 在图书馆应用 • 可视化检索 • http://infovis.cs.vt.edu/cs5764/readings.html

1 检索评价 • 信息检索评价的概念 • 研究历史 • 系统评价指标 • 用户评价指标 • 信息检索相关性模型

信息检索评价的概念 • 信息检索评价的基本问题是评价相关性 • 以二值表述的相关性不能反映文献相关的程度 • 一些文献提供的相关信息多一些，而另外一些提供的相关信息少一些，但不是无关 • 已经有一些研究按照相关性程度表述但是仅仅只有几个试验实际利用了不同的相关因素

信息检索评价的概念 • 在现代的大型数据库条件下，对一个检索提问响应的相关文献量动辄远远超过用户的实际需要 • 用户希望检索结果按照相关程度排序 • 系统设计人员和图书情报工作者也希望通过评价不同检索方法的效果，以揭示其区别

信息检索评价的类型 • 系统评价主要包括 • 功能评价，即评价一个系统是否完成了它所侧重的目标。 • 性能评价，主要指标是时间与空间的开销。（如：对数据检索系统的评价）响应时间越短，占用的空间越少，系统性能越好 • 信息检索系统还包括其他一些度量指标。 • 这是由于用户的查询请求本身具有模糊性，检出的结果不一定是精确答案。需要依照与查询的相关度，对结果集合的准确度进行评价。

信息检索评价的类型 • 检索性能评价 • 批处理模式 • 用户提交提问，并得到检索结果 • 产生检索结果集合的方法 • 交互模式 • 用户通过于系统一系列交互步骤提交信息需求 • 涉及的因素 • 用户因素 • 界面性能 • 系统的导引性能 • 过程的时间

检索评测基础 • 检索评测基础: 建立在测试参考集和一定的评价测度基础之上。 • 测试集由一个文档集、一组信息查询实例、对应于每个信息查询实例的一组相关文档（由专家提供）所组成。 • 检索策略的评价 • 对一个给定检索策略S，对每个信息查询实例，评测由S检出的结果集合与由专家提供的相关文档集之间的相似性，量化这一指标。

国内外检索评价历史 • 20世纪30年代，美国Bradford首先使用文献的主题相关概念(documents relevant to a subject) • 20世纪50年代，美国Taube,Mooers,Perry和Luhn等首先实现了基于集合论和布尔代数的信息检索系统。当时对于相关性的假设是，检出的结果就是相关的，没有检出的就是不相关的。 • 稍后的相关性研究集中于非相关(non-relevance)。Taube等认为相关性主要受系统内在特征与操作影响，影响因素包括分类表、索引、词汇的语义以及语法描述、文献组织以及检索提问的分析与检索策略等。此时的问题是没有注意文献选择过程，即没有考虑人的因素。(系统观) • 1958年科学信息国际会议(ICSI)开始相关性研究中考虑了人的因素。Vickery在会议上提出将相关性分为主题相关和用户相关两类。主题相关性定义为描述检索问题的主题词和描述文献的主题词之间的匹配关系(系统观)，用户相关性定义为用户检索相关信息的愿意程度(用户观)

国内外检索评价历史 • 1959-1980，以Saracevic发表的关于相关性研究的阶段性综述为标志，出现了大型实证研究和系列理论研究 • 实证研究 • 1957和1962年开始的美国科学基金会(NSF)资助的Aslib Cranfield I和Cranfield II项目 • Cranfield I基于系统观，检索提问根据来源文献题目拟出，相关性判断由查询者将检索提问与文献号比对完成，不阅读文献 • Cranfield II将实际检索提问提交给系统，提问者通过阅读检出的文摘判断相关性 • Cranfield 的意义 • 找到了影响相关性判断的多种因素，为后续得到研究提供了测试数据首次采用查全率和查准率进行检索系统评估，同时发现两者之间存在的类反比关系(inverse relationship) • 引发了相关性研究的论争，Cranfield的每个方面都收到批评和反驳，从而导致试验从实验室环境到自然真实的用户环境的转移

国内外检索评价历史 • 1967年Cuadra和Katter的研究 • 将相关性分为两类 • 一是用户兴趣主题与文献之间的关系 • 另一是系统输出和用户信息需求之间的关系 • 研究设计阶段列出五类38种可能影响相关判断的因素 • 文献类型(含主题和难易程度) • 信息需求的陈述 • 判断者的经验背景和态度 • 判断条件(时间压力输出顺序文献量等) • 表达方式 • 研究结论认为，影响相关判断有6个因素(变量) • 焦点变量(focusing variables)用户判断相关性的标准 • 界限变量(delimiting variables)对试验者施以不同的指导导致的结果 • 情景变量(situation variables)环境、时间、反馈等因素的影响 • 刺激材料变量(stimulus mat variables)文献的文体特征专业性等 • 个体差异变量(individual diff variables)用户知识水平和技能 • 量化尺度模式(available mode of quantitive expression)量化尺度的粗细

国内外检索评价历史 • 1967年Cuadra和Katter的研究结论 • 认为相关性判断应随着材料特征的不同而有所变化，也应随着用户状态(包括需求、态度、偏见、以及知识储备等)的不妥容而异。 • 但是它们认为用户的真实需求不可及，用户的信息需求与文献之间无法建立起直接的方法学上的联系。 • 如何将用户的信息需求翻译成特定的可操作的表达式是非常紧迫的任务

国内外检索评价历史 • Rees和Schultz的研究 • 目的在于构建测试研究相关性的判断过程的方法。研究设计的基本理念在于严格限定的环境（生物医学专业）中相关性评估是可记录和可分析的。 • 研究测试了40个影响相关性判断的变量，含主要变量(研究阶段、判断组、文献集以及文献描述等)和次要变量(用户的背景、专业经验以及研究经验等) • 研究结果显示个体差异对于相关性判断的差异的影响很大。越是对主题的科学内涵熟悉的试验对象，被判断为相关的文献数量越少。因而建议相关性研究应引入认知方法

国内外检索评价历史 • 1956～1980年间的理论研究 • Maron和Kuhn的研究(基于概率实现文献的相关性排序) • 提出用“相关量”作为相关性的量化值。 • 该值的条件概率由用户的查询、查询的主题域、查询表示及系统检出的文献等四项因素共同决定。相关量即用户以“查询的主题域”、形成“查询表示”，系统检出的文献能满足“用户查询”的概率。 • 如何得到这个概率是一个至今需要更多努力的问题 • Goffman的研究(基于集合论进行) • 主要目的是探讨查询表达式与文献所载信息之间的相互关系 • 数学上作为测量值必须满足4个条件：必须大于等于零、必须是有序的、应该有绝对零点、满足完全相加的原则。但是如果将相关性定义为所载信息与查询表达式之间的关系，则相关性不可能成为测量值因为它违背测量值的后三项条件。 • 认为应突破系统观的相关性定义，考虑检索出的文献集而不是文献本身。

国内外检索评价历史 • Goffman和Newill的研究(流行病学理论) • 将知识的传播类比于疾病的传播。核心概念是有效接触(effective contact) • 如果想发挥信息传播的最大效益，从源到宿的信息必须是相关的，只有这样才能形成信宿的知识积累。以检索问题与文献间以及文献间关系决定相关性的条件概率（相关值） • Cooper的研究(逻辑相关性理论) • 聚焦于不同元素关系的本质，而不是简单地枚举影响相关性的因素。 • 基本观点是句子是承载信息的基本语言单位，信息需求以及检索系统中的数据可以通过陈述句加以表示。 • 一条语句s与另一条语句相关r(或者是其逻辑非-r)的前提是s属于包括r的最小前提组M

国内外检索评价历史 • 20世纪90年代开始，是相关性研究的第二次高潮。这个阶段的研究大部分是面向用户展开的。 • Shamber的实证研究。 • 探讨信息源以及信息表现形式呈多样性的环境中，用户在其真实的信息查询以及信息利用活动中采用的相关性标准。 • 研究方法通过对每名实验对象的访谈进行录音，然后通过转录并结合内容分析，建立相关性标准 • 这些标准包括准确性、实时性、特异性、地理接近性、可靠性、可获取性、可验证性、简明性、动态性、表现形式的质量。

国内外检索评价历史 • Barry的实证研究。 • 基于用户自发的信息需求，评判用户对真实的信息需求所进行的相关性评估。 • 实验对象包括18名教师及学生。通过对实验结果的内容分析找出了6类23种影响相关性判断的因素：文献内容、用户过去的经验和背景、信息环境中其他资源的关系、与文献的来源品质有关的因素、与文献实体部分有关的因素、与读者情景有关的因素。 • 结论显示包括用户的经验、背景、知识素养、信仰和个人喜好等的许多情景因素事实上起着相当重要的作用。

个人知识 决策规则文献文献信息元素用户标准价值决策决定处理结合国内外检索评价历史 • Wang的实证研究 • 构建了文献选择的认知模型。 • 模型包括6个组件：文献信息元素、用户标准、文献价值、个人知识、决策标准、决策自身

国内外检索评价历史 • 理论研究综述： • Shamber1994年的综述：相关性的意义及其在信息行为中扮演的角色归纳了6类80个影响因素，偏重于定量的查全率和查准率，以及定性的效用(utility)和满意度(satisfaction) • Saracevic1994年的综述归纳了系统、通信、情景、心理四种模型，据此提出了第5种模型：交互式模型，它借用了人机交互研究种的阐释理论和语言学中的分层理论 • Mizzaro1998年的综述以4维框架描述了所有的相关性概念和模型：信息资源维、用户信息需求的描述维、时间维、主题任务和背景维 • 思辨性论述 • Borlund的论述不能形成相关性定义的原因是相关性是一个多维的、认知的、动态的概念。通过重新引入情景相关性，构建整体的相关性框架

国内外检索评价历史 • 纵观80年的研究历史 • 两个主要流派 • 面向系统和面向用户 • 两个研究高峰 • 60年～79年代前期，80年代中后期至今 • 相关性是一个多维的、认知的、动态、可测度的概念，已经成为共识。 • 国外实证研究是最基本的研究手段，国内则鲜有开展，这是国内研究没有实质性成果的一个关键原因

国内外检索评价历史 • 系统性 • 是目前信息检索系统的主要实现方式 • 主观性 • 依赖于人的判断，不是文献和信息的内在特征 • 认知性 • 最终依赖于人的知识和理解 • 情景性 • 与个体用户的信息问题紧密相连 • 多维性 • 受到多种因素的影响 • 动态性 • 随着时间的推移不断变化 • 可测度性 • 在某个特定的时间是可以观察的

国内外检索评价研究的遗憾 • 面向系统的研究没有考虑用户层面 • 面向用户的研究没有考虑系统层面 • 融合两者研究，是将相关性研究引向深入的一大难题

检索性能评价 • 评价的类型 • 实验室评价和真实环境评价，两者不同。有时，结果出入也较大。 • 由于在实验室封闭环境下的评价具有可重复性，目前仍是主流。 • 还有对交互查询进行评测，需要考查界面的设计、系统引导、会话持续时间等因素。

传统的评价方法是批处理P-R方法 系统评价指标

查全率和查准率评价指标 • 对某个测试参考集,信息查询实例为I，I对应的相关文档集合为R。假设用某个检索策略对I进行处理后，得到一个结果集合A。令Ra表示R与A的交集。 • 查全率(Recall)：检出的相关文档个数与相关文档集合总数的比值，即R=|Ra| / |R| • 查准率(Precision)：检出的相关文档个数与检出文档总数的比值，即P=|Ra| / |A| Ra R A

查全率和查准率评价指标 查全率R=The fraction of the relevant documents which has been retrieved Relevant Docs In Answer Set |Ra| collection 查准率P=The fraction of the retrieved documents which is relevant Answer Set |A| Relevant Docs |R|

面向用户的相关性 • 信息观的相关性 • 判断主要基于信息问题与信息外在表现间的关系，判断的实质是判断者内在的知识储备 • Ingwersen的研究：4种关于性(aboutness) • 作者关于性 • 相关性与作者撰著的文档中的内容相联系，因而可以直接采用文档中的词汇表示信息，是自动标引和匹配技术的理论基础 • 标引者关于性 • 相关性由标引者以控制词表描述作者自然语言的标引结果决定。理论上，这种相关性要优于作者关于性的，实践中不一致性客观存在。 • 查询关于性 • 相关性由用户将查询七国求转换为查询表达式决定 • 用户关于性 • 相关性由标引者在标引时对用户的所知和所想的考虑

用户评价指标——情景观的相关性 • 描述信息与用户信息问题情景之间的关系，认为只有用户才能完成有效的相关性判断，在主观性方面，比信息观的相关性前进了一步。 • Wilson的研究 • 判定情景相关的先决条件，必须先了解并描述信息需求者个人所处的情景。影响情景相关的要素 • 偏好，用户偏好与问题和答案息息相关 • 兴趣，用户所关心的事物多为其有兴趣的 • 时间，相关会随着时间、时代的改变有所不同 • 程度，相关应有程度上的不同 • 显著信息，可改变认知状态的价值大的信息 • 实用信息，

用户评价指标——情景观的相关性 • Wilson的研究的影响 • 将相关的范围延伸到个人的知识状态，和当今的信息系统设计理念不谋而合 • 情景相关研究面临的最大问题是如何描述个人的认知状态，文字与文字指甲的演绎与归纳关系 • 需要研究者在认知心理学、学习理论、人类思维领域进行深入的研究，需要多学科的合作

Saracevic的归纳 • 相关性是由E评估的存在于C与D之间的B的A

看到什么了？ 2 信息可视化研究——一般概念

信息可视化研究的一般概念 • 什么是可视化? • 现代可视化技术是指运用计算机图形学和图像处理技术，将数据转换为图形或图像在屏幕上显示出来，并进行交互处理的理论、方法和技术 • Visualize: • Interactive -- 互动式的 • Visual representation –可视的 • Amplify cognition –提高认知功能的

参考模型 数据信息可视化形式原始数据原始数据可视化结构视图任务可视化映射视图变换数据交换人机交互信息可视化研究的一般概念

信息可视化研究的一般概念 • 信息可视化的三大支柱 • The power of Perception • 感知的功能 • The power of Graphics • 图形的功力 • The power of Associations • 联想的潜力

信息可视化研究的一般概念 • 信息可视化本质 • 寻求人机合作一种新的途径 • 计算机将大量抽象的信息映射到图像上； • 人们通过图像的结构,特征等来理解认识从而获得知识。 • 让计算机与人各显神通 • 电脑的高速信息处理能力远远超过人脑； • 人脑的识辨，理解能力是电脑所不可及的。

信息可视化研究——可视化工具 • http://iv.slis.indiana.edu/

信息可视化研究的一般概念 • Touchgraph工具

信息可视化应用研究 • 信息可视化的应用 • 数据分析 • Visual inspection of data properties • Dimensional deduction • 海量数据的图形化表示 • Clustering and grouping • Discovery of hidden internal structures • 实现与数据的可视化交互 • interactive online searching • browse large amount of information

信息可视化应用研究 • 在电子数字图书馆中的应用 • 揭示信息的分布 • 显示检索的结果 • 为大量的信息分类 • 帮助用户浏览 • 提供个性化信息服务

信息可视化应用研究 • 为大量的信息分类 • 将整个数据库的内容用一个图表示出来 • 图书情报专业群英图

信息可视化应用研究 • 帮助浏览

信息可视化应用研究 • 揭示信息的分布

数据库 用户界面多媒体检索网络图书馆信息可视化应用研究 • 显示检索的结果数字图书馆

可视化检索 • 可视化检索的必要性 • 每个人的个人“信息空间”都在飞快地膨胀 • 个人信息空间现在是“搜索引擎战”的前沿阵地 • Google, Yahoo!, Microsoft 都提供免费的Desktop Search Solutions • 但问题是 • 单单检索已经不够！(Search is not Enough!)

可视化检索 • 可视化检索的必要性 • 检索界面单一，当前的检索系统没有根据不同的查询，提供有针对性的、相关性可以调整的机制 • 界面死板 • 不能揭示相关文档之间的关系 • 固有的关系被掩盖 • 忽略了检索结果选取时的人机交互作用 • 无交互功能，或交互功能极弱

可视化检索 • 可视化检索的必要性 • 让用户做到“过目不忘” • 只要看过的，就记下 – Keep-It-Button • 提供知识系统帮助组织，整理个人信息空间 • 提供个人空间与其他信息空间的连接 • 强调“人机合作” • 既要“自动化”，又要“个性化”

可视化检索 • 两个有影响的国际研讨会 • 1995年起，每年10月美国IEEE信息可视化国际研讨会 • 1997年起，每年7月英国信息可视化国际研讨会 • 国际上已经取得的成果 • 可视化理论模型研究 • 出现一批原型系统

可视化检索 • 可视化信息检索的设计原则 • 提供信息反馈 • 帮助用户掌握检索提问和信息检索之间的关系、命中文献之间的关系、命中文献和描述该文献的元数据之间的关系 • 减少工作记忆负担 • 允许用户返回临时放弃的检索策略，或者从一个检索策略跳到另一个检索策略 • 提供一般用户和专家用户的界面选择 • 采用“脚手架”（scaffolding）技术：向初学者提供简易界面，向有经验的用户提供高级界面

可视化检索 • 可视化检索技术 • 格式刷和连接，颜色联动 • 两个和更多窗口的连接 • 摇镜头 • 变换聚焦，变换景深 • 魔幻镜头 • 通过点击代表不同的检索对象，实现覆盖对象和未覆盖对象之间的切换

可视化检索 • 检索可视化模型 • 信息晶体(infoscrystal) • 超级图书(superbook) • 信息可视化引擎(NIRVE)

第七讲 检索可视化和检索评价