220 likes | 358 Views
智能计算助力互联网的进化. 主讲人:周富秋 博士 2009 年 11 月 24 日. 公司简介. 海量公司是一家从事中文智能计算和数据挖掘的理论研究及技术开发的知识性创新企业,长期致力于智能计算的研究及其在互联网的应用 从字符到语义 从非结构化到结构化 行为分析 在核心技术基础上,提供智能计算基础件产品和互联网内容挖掘服务. 互联网现状( 1 ). CNNIC 的最新报告显示,截止今年 6 月 30 日,我国网民规模、宽带网民数、国家顶级域名注册量三项指标持续稳居世界第一,其中 : 国家顶级域名注册量达 1296 万
E N D
智能计算助力互联网的进化 主讲人:周富秋 博士 2009年11月24日
公司简介 • 海量公司是一家从事中文智能计算和数据挖掘的理论研究及技术开发的知识性创新企业,长期致力于智能计算的研究及其在互联网的应用 • 从字符到语义 • 从非结构化到结构化 • 行为分析 • 在核心技术基础上,提供智能计算基础件产品和互联网内容挖掘服务
互联网现状(1) • CNNIC的最新报告显示,截止今年6月30日,我国网民规模、宽带网民数、国家顶级域名注册量三项指标持续稳居世界第一,其中: • 国家顶级域名注册量达1296万 • 网民规模达3.38亿,较去年底增长 13.4% • 宽带网民规模达3.2亿,占总网民数的94.3% • 手机上网用户达1.55亿,半年内增长了32.1% • 网络普及率达25.5%
互联网现状(2) • 纵观全球: • 互联网每天的点击数有 1000亿 次 • 全球所有的网页之间有 55万亿 个连接 • 互联网中有 10亿 个芯片 • 每秒 2百万 封邮件;3.1万 条短信 • 246HB 的存储空间 -- 多么大的一个磁盘 • 互联网上每秒产生的流量有 7TB 之多 • 互联网消耗了全球电力的 5%
互联网现状(3) • 数据累积量急剧增长、大量有价值的信息被淹没,呈现“信息过剩” • 信息是异域、异构、非结构化的,呈现“信息孤岛“ • 实质“资源利用率低”:Google VS 百度 • 互联网阴霾之概括: • 多 – 信息过量、难以消化 • 杂 –信息真假、难以识别 • 乱 –信息安全、难以保证 • 难 –信息形式不一、难以统一处理
互联网未来 • 转量变为质变 • 依赖 • 网站模式创新: 原创型、专业性、地域性、互动性。。。 • 网站技术创新:智能计算、数据挖掘、信息融合。。。 以内容为纽带,将整个互联网搭建成一个语义逻辑整体
从字符到语义 应用层次 知识网络:实体属性-关系库 新词发现 知识网络:概念树 自动消重 基于命名实体的分类 半监督自动分类技术 基于命名实体的聚类 有指导自动分类(层级分类) 基于命名实体的关联 无指导自动聚类 半监督学习 NLP搜索 机器翻译 关键词技术 命名实体识别 分词 命名实体、事件、主题标注 研究层次
从非结构化到结构化 H2X 信息抽取技术 视觉还原技术 版式识别技术
创建知识网络 弱链接与强链接:发现潜在的信息桥梁 NBA CBA 麦迪 科比 王治郅 刘玉栋 乔丹 姚明 朱芳雨 链接中国男篮与美国男篮的桥梁 姚明即是NBA的强链接,又是NBA群与CBA群间的桥梁——结构洞 通过命名实体识别、实体间关系挖掘获得关系统计数据,从而在互联网的海量数据中发现潜在的规律
解决方案:海纳在线数据挖掘服务 TXT, XML, HTML… DOC, XLS, PDF, DB… 图像, 音频, 视频 形式化分析 自然语言分析 结构化信息 RDF、RDF Scheme
解决方案:延伸阅读-用户体验和智能 • 对应某发布网页,通过增加一些相关的文章题目与摘要,引导读者阅读更多的内容 • 利用实体识别与关系分析等智能计算手段,实现 聚类、实体与主题提取 • 精彩计算,随需而变 • 点亮阅读、增加粘度 • 降低制作成本、盘活已有资源 • 更精准,更易于互动、实现个性化
解决方案:热点发现、跟踪与预测(1) 传统的方法:热点词 -- 只有发生了很久,才能通过统计得知是热点 现在的方法:时间维度与类别维度 --满文军是明星,萧淑慎 是明星,吸毒只要和这些人相关就是敏感新闻 未来的方法:时间维度,同现维度及敏感维度 -- 大批银行倒闭之后,必然是经济危机的开始,于是可以预测未来
解决方案:热点发现、跟踪及预测(2) 股票 人物 乔布斯的健康情况直接影响到了苹果股价 中石化 苹果 乔布斯 巴菲特 中石油 杨惠妍 • 未来的方法 • 乔布斯 披露健康状况 苹果 股票应声上涨 • 乔布斯 宣布要休病假 苹果 股票应声下跌10% • … 乔布斯与苹果股价:一种稳定的关系
解决方案:智能检索与推送 用户行为分析、意图识别、智能引导 时序统计 房地产 命名实体属性库 0.1 房产名称 0.4 0.5 买房 房贷 房价 0.2 专家预测 新盘 用户行为分析 实体关系库
解决方案:舆情分析与跟踪 基于知识网络的智能计算:实现通过网络了解民情、汇聚民智 别克昂克雷 在论坛、博客等识别出的命名实体将可以获取民间的产品评价 为什么要识别?句子中会有歧义,错误的提取产品名将会导致错误的分析
解决方案:个性化服务 针对男性、24~40进行聚类,获得一个个子群体,通过更多的词群予以表示 通过用户行为分析,采用相应的多维度的兴趣描述、多方面的推送策略
解决方案:网站净化服务(案例) • “和讯网”垃圾帖过滤 • 净化 --》疏导 • 助力客户 • 增效,即提升清除效果、网站运营、品牌价值 • 省力,即节省人力、财力、心力 • 创建稳定、和谐的网站环境 • 达到客户期望的效果 • 人员等成本节省 60% 以上 • 持续保持处理正确率 90% 以上 • 7×24 小时不间断服务 • 10秒 内自动处理
知识 情报 • 主题抽取、深度标引 • 比对、统计形成二次情报 • 对决策具有指导意义 互联网数据/内容挖掘路径 信息 • 消重、结构化、索引、分类 • 具备基本利用价值 数据 • 广泛采集 • 数量大 • 价值低
媒体网站的未来 将互联网的 数据转换为情报/知识 情报/知识转换为决策 决策转换为利润 将媒体网站建成 安全网、诚信网、绿色网
谢谢! www.hylanda.com