800 likes | 1.1k Views
Thomson Data Analyzer Critical Insight into Competitive and Technical Intelligence. Celine Li Thomson Reuters. 提纲. Thomson Data Analyzer 概况 数据导入与数据管理 数据规范 / 数据结构化 数据分析 生成报告. TDA 简介. Thomson Data Analyzer (TDA ), 是一个具有强大分析功能的 文本挖掘软件 ,可以对文本数据进行多角度的数据挖掘和 可视化的全景分析 。
E N D
Thomson Data Analyzer Critical Insight into Competitive and Technical Intelligence Celine Li Thomson Reuters
提纲 Thomson Data Analyzer概况 数据导入与数据管理 数据规范/数据结构化 数据分析 生成报告
TDA简介 Thomson Data Analyzer (TDA),是一个具有强大分析功能的文本挖掘软件,可以对文本数据进行多角度的数据挖掘和可视化的全景分析。 TDA能够帮助您从大量的专利文献或科技文献中发现竞争情报和技术情报,为洞察科学技术的发展趋势、发现行业出现的新兴技术、寻找合作伙伴,确定研究战略和发展方向提供有价值的依据。 TDA在数据的导入,数据的清理,数据的分析,和分析结果的报道方面都具有独特的功能。
DWPI & PCI Original Patents MS Excel WebofKnowledge Delphion STN Aureka Dialog Thomson Innovation PatentWeb Web of Science INSPEC TDA数据导入 结构化的数据 不同平台 Import Engine Editor
数据管理 • 包括数据特性和数据统计信息 ( Dataset Properties, field statistics) • 字段的更名以及增加删除等 (Rename/copy/delete/merge fields) • 将当前的数据集拆分 (Create Sub-dataset) • 文件的合并 ( Merging files) (Data Fusion) (Record Fusion) • 记录的去重与合并 (Dealing with duplicate)
数据清理 • 高质量的数据分析结果首先取决于数据的准确性与完整性 • 标引的不一致 • 输入的错误 • 合并同义词近义词 • 文献著者或发明人的不同写法 • 科研机构或专利授权人的不同表达方式 • TDA软件内部设有多个叙词表,为您提供快速的自动数据清理的功能,只需点击一个按钮,数据整理工作即可自动完成。 • 用户还可建立自己的叙词表,对著者/发明人、科研机构/专利申请人/专利授权人、国际专利分类号、等字段加以清理。
数据分析 有效的分析可将无序的数据转化为高附加值的情报 List: 快速排序分析各个字段, 生成各种图表。 List comparison: 对比任何两个列表,揭示其共性或发现某列表的独特性。例如对比分析两个科研机构或两个竞争对手。 Matrices: 通过Co-occurance矩阵,Auto-correlation矩阵, Cross-correlation矩阵, 发现隐含的发展趋势或相关性。 Maps: 通过数据图谱将数据分析的结果可视化,例如将主因素分析、相关性分析的结果以Map的方式表达出来,揭示机构间,科研人员间或各类技术之间的关系。
分析报告 TDA帮助您快速生成各种报告,为决策者更快做出更好的决策提供依据。只需点击按钮即可生成公司报告、公司间的比较、和对某一技术的深入分析。 Technology Report(分别以技术/机构/发明人为参照点考量新出现的/消失的/量最大的/独特的技术分布报告) Top Assignees ( DWPI only,前25位专利权属人Derwent 分类/发明人分析报告) Trend Analysis (DWPI only,从技术、市场、专利权人的角度,分析Derwent分类/Derwent手工代码/IPC号对应年份出现的新旧比例,显示技术发展趋势)
提纲 Thomson Data Analyzer概况 数据导入与数据管理 数据清理/数据结构化 数据分析 生成报告
案例:3G通信行业专利分析 (The 3rd Generation ) • 3G,全称为3rd Generation,中文含义就是指第三代数字通信。 • 1995年问世的第一代模拟制式手机(1G)只能进行语音通话;1996到1997年出现的第二代GSM、TDMA等数字制式手机(2G)便增加了接收数据的功能,如接受电子邮件或网页;第三代与前两代的主要区别是在传输声音和数据的速度上的提升,它能够在全球范围内更好地实现无缝漫游,并处理图像、音乐、视频流等多种媒体形式,提供包括网页浏览、电话会议、电子商务等多种信息服务,同时也要考虑与已有第二代系统的良好兼容性。为了提供这种服务,无线网络必须能够支持不同的数据传输速度,也就是说在室内、室外和行车的环境中能够分别支持至少2Mbps(兆比特/每秒)、384kbps(千比特/每秒)以及144kbps的传输速度。(此数值根据网络环境会发生变化)。
总体技术发展趋势宏观分析 技术领域内重要的专利权人 (专利权人名称) 地区覆盖范围 (国家、地区) 创新性活动进展 – 时间序列分析 (优先权年,最近15年) 排名靠前的专利申请者的地区分布 (Top30) 排名靠前的专利申请者其专利申请活动的时间分布(最近15年) 技术发展趋势(时间分布、地区分布、专利权人分布)(ManualCode、NLPwords、 热点技术(时间分布、地区分布、专利权人分布) 高影响力专利
Novelty:描述发明的独特性 专利家族
DWPIAbstract的价值 Novelty (Abstract-DWPI Novelty/NOV): 描述发明的独特性. Detailed Description (Abstract-DWPI Detailed Desc/DTD): 当在Novelty字段无法总结发明主要的权利主张时,摘要中会出现此字段。 Activity (Abstract-DWPI Activity/ACT): 用于描述生物体或者化合物的生物活性 Mechanism (Abstract-DWPI Mechanism/MEC): 描述化合物或者生物体的生物机理. Use (Abstract-DWPI Use/USE): 包括该发明在不同技术领域的使用(应用). If there are no disclosed uses, this is stated. Advantage (Abstract-DWPI Advantage/ADV): 包括由发明人所陈述的发明优势. Tech Focus (Abstract-DWPI Tech Focus/FOC): 描述该发明包含的核心技术领域以外的技术。Technology Focus Abstract is used to group information concerning how the invention is carried out into the technology area(s). Drawing Description (Abstract-DWPI Drawing Desc/DRW): 记录中所包括的技术图示的解释
数据管理 数据集拆分 字段的更名 数据集拆分 文件的合并 记录的去重合并
提纲 Thomson Data Analyzer概况 数据导入与数据管理 数据清理/数据结构化 数据分析 生成报告
数据清理/数据结构化 高质量的数据分析结果首先取决于数据的准确性与完整性: • 让数据的差异性最小 • 尽量减少词汇的拼写差异、或者同义词等 清理数据的方法包括: • List Cleanup- 机器辅助识别并聚类相似的术语 • Thesauri- 按照规则识别并聚类类似的术语 • Groups— 在一个字段中标记类似的术语,同时可保留条目细节 • Classifications- 手工将记录分类到用户制定的分类中
数据清理/数据结构化 • 数据规范/数据结构化 为什么要规范数据: • Alloy, alloys; “human-computer interaction” and “human computer interaction” ;单数/复数变化;拼写错误;美式/英式拼写;公司名称/机构的不同书写格式的不同;
数据清理之DWPI 自动清理 Derwent数据的自动清理工具 预制的清理数据脚本,规范数据,生成(DWPI only): Assignee (cleaned); Inventor ( Cleaned); IPC (Cleaned); Derwent Class (Cleaned)
数据清理之: List Cleanup TDA 可以将同义词/等同词等加以区分; 当使用List Cleanup工具时, 您在使用文件名后缀为 .fuz 的文件对数据进行清理. 最常用的模糊匹配文献包括: 机构(Affiliation ) - 可用于公司/机构字段,忽略常用的机构标志词 (e.g. Corp, AG, KK, Ltd) 作者(Author )-用于作者字段; 发明人(Inventor )-用于发明人字段; 一般(General )-可用于所有的文本字段, e.g. cleaning NLP text fields
相同专利权人的合并 (光标拖动放在相应名称下即可)
将不应该归并的数据从组中去除(选中数据并采用右键)将不应该归并的数据从组中去除(选中数据并采用右键)
数据清理之: Thesaurus-- 叙词表 您可以对一张数据列表利用叙词进行清理 您可以自己编辑叙词表 可以手工拖拽生成叙词表 当在Cleanup Confirm对话框内点击 Save As Thesaurus或者利用Groups创建叙词后 (Menu item Groups and Create Thesaurus using Groups ...) 再选择已存在的叙词文件 (*.the), 您就可以将叙词表合并到一个已有的叙词表里
数据清理之Group • 数据列表中的项目可以被标记到一个集合或者一个组之中 • 分组功能对于减少共现矩阵的大小非常有帮助 • 将数据集合中的数据提取出来形成一个新的数据集合并对其加以定义.
提纲 Thomson Data Analyzer概况 数据导入与数据管理 数据清理/数据结构化 数据分析 生成报告
数据分析 List:一维分析 矩阵分析:二维分析 Map:最好利用分过组的数据进行分析 预制的分析模块:三维分析/分析报告