580 likes | 1.07k Views
机器学习技术与应用. 潘 炎 中山大学软件学院 panyan5@mail.sysu.edu.cn. The speaker. 潘炎,博士 / 讲师,中山大学软件学院 研究兴趣:机器学习 Learning algorithms Large-scale learning Learning on high dimensional data Structural learning Learning to rank (搜索引擎结果排序) Image classification (图像分类) Object detection&tracking (智能监控等).
E N D
机器学习技术与应用 潘 炎 中山大学软件学院 panyan5@mail.sysu.edu.cn
The speaker • 潘炎,博士/讲师,中山大学软件学院 • 研究兴趣:机器学习 • Learning algorithms • Large-scale learning • Learning on high dimensional data • Structural learning • Learning to rank (搜索引擎结果排序) • Image classification (图像分类) • Object detection&tracking (智能监控等)
Philosophy of the course • Mastering a set of key principles and key tools that can solve a wide range of problems (通用) • Finding a solution tailed to the special structure of the given practical problem (灵活运用)
About this course • Practical machine learning techniques • Two parts: • 基本概念,核心工具 • 学习的框架 • 优化方法 • 分类 • 回归 • 主流技术,典型实际问题的解决方法 • 支持向量机(SVM) • Boosting,decision tree • 搜索引擎、社交网络、图像视频理解等
About the exam • 论文阅读报告 20% • 个人项目 30% • 团队项目 40% • 课堂互动 10%
软件的现状 • 过去十多年,我们开发的软件系统主要是收集数据 • ERP系统=单据电子化 • 邮件系统=信件电子化 • 监控摄像头(小区,交通,商铺),人工监控,事后取证 • ……
软件的未来 • 从收集数据到分析数据 • 市场上需要“聪明”的软件 • 智能监控是否可以实时预警? • 能否给我推荐我喜欢的电影/产品/新闻/广告? • 汽车能否自动驾驶? • 能否为我公司的生产流程的改进提供建议? • 游戏里能否植入广告而又不会让玩家觉得不自然?
例子:视频跟踪和智能事件分析 行人跟踪 车辆跟踪 视频跟踪 打架 交通事故 事件分析
Cat Dog ?
Cleanliness Size
$ $$ $$$ $$$$ ?
Price $$$$ $$$ y $$ $ Top speed x
Binary Classification • Is this person Manyu Zhang or not? • Is this person male or female? • Is this person beautiful or not?
Multi-Class Classification • Is this person 张曼玉, 林青霞or 黎姿? • Is this person happy, sad, angry or bemused?
Ordinal Regression • Is this person very beautiful, beautiful, ordinary or ugly?
Regression • How beautiful is this person on a continuous scale of 1 to 10? 9.99?
Ranking • Rank these people in decreasing order of attractiveness.
Multi-Label Classification • Tag this image with the set of relevant labels from {female, Manyu Zhang, beautiful, SYSUfaculty}
Learning from experience and data • In what form can the training data be obtained? • What is known a priori? • Complexity of training • Complexity of prediction Are These Problems Distinct?
相关学科 数据挖掘 统计学 神经科学,心理学 计算机 人工智能
What is machine learning? • Two steps • Training/Learning • 给定一个数据样本集,从中学习出规律(模型) • Testing/Predicting/Inference • 对于一个新的数据样本,利用学到的模型进行预测
例子:天气预报 • 目标:预测明天广州会不会下雨 • 数据:过去10年广州每一天的天气数据 • 那天是否有下雨:label s(是/否) • 那天的前一天傍晚18点的气温、相对湿度、风向、风速、气压等:features • 训练:学习得到规律(模型) • 预测:给定今天傍晚18点的气温、相对湿度、风向、风速、气压等、根据模型预测明天是否下雨
机器学习的关键问题 • 如何表示数据样本? • 通常用一个向量来表示一个样本,向量中选用哪些特征是关键 • 如何找出规律 • 通常变成一个选择题,给你n个候选的模型让你选。 • 确定选择的标准(什么样的模型才叫好模型) • 如何快速地从n个模型中选出最好的 • 如何根据找到的规律进行预测
步骤1:如何表示样本? • 把样本(一篇文章,一个图片)表示成一个向量
例子:家庭用车 • 任务:把车分类 家庭用车/非家庭用车 • 样本:车 • 问题:如何把车表示成一个向量?选取哪些特征? • 价格,排量
例子:预测病人是否会发心脏病 • 样本:病人 • 把病人表示成一个向量 • 血糖,血压(高,低),血脂,心率
例子:预测天气 • 温度,相对湿度,风向,风速,气压
步骤2:如何找出规律? • 确定要找的是哪类规律(函数形式) • 例如,假设规律是向量特征上的权重 • 从众多可能的规律中选出最好的那个 • Q:选择标准是什么? • A:最小化在训练集上的损失函数 • Q:如何从众多候选规律中快速地找到最好的那个? • A:优化算法
步骤3:根据找到的规律进行预测 • 打分,根据分数作判别