330 likes | 501 Views
搜索引擎开发培训课程提纲. 前导知识. Core Java 《 Java 技术手册 》 编译原理 《 Modern compiler implementation in Java 》 概率论 《应用随机过程:概率模型导论》 数据结构 《 JAVA算法》. 了解搜索引擎. Google 神话 . 体验搜索引擎 把搜索范围限定在网页标题中 ——intitle . 把搜索范围限定在特定站点中 ——site . 把搜索范围限定在 url 链接中 ——inurl. 做自己的搜索(代码) 实现制作索引的功能,实现搜索功能. 遍历搜索引擎技术.
E N D
搜索引擎开发培训课程提纲 Find Real Matter
前导知识 • Core Java • 《 Java技术手册》 • 编译原理 • 《 Modern compiler implementation in Java 》 • 概率论 • 《应用随机过程:概率模型导论》 • 数据结构 • 《 JAVA算法》 Find Real Matter
了解搜索引擎 • Google神话. • 体验搜索引擎 • 把搜索范围限定在网页标题中——intitle. • 把搜索范围限定在特定站点中——site. • 把搜索范围限定在url链接中——inurl. • 做自己的搜索(代码) • 实现制作索引的功能,实现搜索功能. Find Real Matter
遍历搜索引擎技术 • 30分钟实现的搜索引擎 . • 准备工作环境(10分钟) . • 编写代码(15分钟) • 发布运行(5分钟) • 实现一个基于WEB结构的搜索引擎。(代码) Find Real Matter
网络蜘蛛 • 全文索引结构 • Nutch网络搜索软件 • 商业搜索引擎技术介绍 • 自己的网络蜘蛛(代码) • 广度遍历 • 深度遍历 • 正则表达式 Find Real Matter
BerkeleyDB • BerkeleyDB.原理与使用方法 • B树讲解 • 基本API使用(代码) Find Real Matter
抓取技术 • 抓取网页 • MP3 抓取 • RSS 抓取 • 图片抓取 • 垂直行业抓取 • 抓取数据库中的内容 • 抓取本地硬盘上的文件 Find Real Matter
提取文档中的文本内容 • 从HTML文件中提取文本 • 结构化信息提取 • 网页去噪 • htmlparser的基本使用(代码) Find Real Matter
正文提取 • DOM树原理 • NekoHTML讲解 • NekoHTML简单应用(代码) • NekoHTML用法的深入了解(代码) • 递归调用方法的使用 Find Real Matter
从非HTML文件中提取文本 • TEXT文件 • PDF文件 • Word文件 • Excel文件 • PowerPoint文件 • 流媒体内容提取 Find Real Matter
中文分词处理 • Lucene 中的中文分词 • Lietu中文分词的使用 • 中文分词的原理 • 正向最大匹配(代码) Find Real Matter
查找词典算法 • 数字搜索树 • Tire树 • Trie树的生成过程(代码) • 使用Trie树的常规的API(代码) • 理解Trie树的平衡过程(代码) • Trie树的改造以及应用(代码) • 最佳前驱匹配(代码) • 语法解析树 Find Real Matter
隐码模型 • 发射概率概念 • 转移概率概念 • 统计一个词库中的发射概率和转移概(代码) • 隐码模型的实际应用(代码) Find Real Matter
文档排重 • 语义指纹 • 语义指纹的概念 • 语义指纹的实际应用(代码) Find Real Matter
中文关键词提取 • 关键词提取的基本方法 • 关键词提取的设计 • 从网页提取关键词 • 关键词提取的实际应用(代码) Find Real Matter
拼写检查 • 英文拼写检查 • 中文拼写检查 • 英文拼写检查的实际应用(代码) Find Real Matter
自动摘要 • 自动摘要技术 • 自动摘要的设计 • 具体的应用(代码) Find Real Matter
自动分类 • 自动分类的接口定义 • 自动分类的SVM方法实现 • 多级分类 Find Real Matter
自动聚类 • 聚类的定义 • K均值聚类方法 • K均值实现 Find Real Matter
语义搜索 • 准备语义词库 • 把语义词库转换成同义词索引库 • 在SynonymAnalyzer中使用同义词索引库 • 具体的代码解析(代码) • JUnit 介绍 Find Real Matter
跨语言搜索 • 简繁转换(代码) Find Real Matter
Lucene 的索引库 • 理解 Lucene 的索引库结构 • 设计一个简单的索引库(代码) Find Real Matter
创建和维护索引库 • 创建索引库 • 向索引库中添加索引文档 • 删除索引库中的索引文档 • 更新索引库中的索引文档 • 索引的合并 • 索引的定时更新 • 索引的备份和恢复 (以上部分均有实现代码) Find Real Matter
优化使用 Lucene • 索引优化 • 查询优化 • 实现字词混合索引 • 定制Tokenizer • 查询大容量索引 (以上部分均有实现代码) Find Real Matter
用户界面设计与实现 • Lucene 搜索接口 • 搜索页面设计 • 用于显示搜索结果的 taglib • 用于搜索结果分页的 taglib • 设计一个简单的搜索页面 • 实现一个日文搜索项目的页面设计(代码) Find Real Matter
实现搜索接口 • 布尔搜索 • 指定范围搜索 • 设置过滤条件 • 搜索结果排序 • 搜索页面的索引缓存与更新 (以上部分均有实现代码) Find Real Matter
关键词高亮显示 • 结合以前学习的内容学会使用highlighter包(代码) • 理解其包中基本类的使用 • 实际应用 Find Real Matter
实现多维视图及相关搜索 • 实现多维视图 • bitsSet介绍 • 计算机中进制转换和位移介绍 • MoreLikeThis的具体使用 (以上部分均有实现代码) Find Real Matter
实现AJAX自动完成 • 用AJAX技术设计搜索页面(代码) Find Real Matter
用Solr实现分布式搜索 • Solr服务器端的配置与中文支持 • 把数据放进Solr • 从Solr删除数据 • SolrJ客户端搜索界面 • Solr搜索结果优化 • Solr的.net客户端 • Solr的PHP客户端 Find Real Matter
图像的OCR识别 • 调用OCR识别图像的过程 • 基于SVM的OCR识别代码 Find Real Matter
Web图分析 • 用BerkeleyDB存储Web图 • WebGraph压缩存储Web图 Find Real Matter
Thank you • Question? Find Real Matter