120 likes | 258 Views
云计算与大数据. 研究方向. 云 计算与大数据 国内外最热门的研究方向 工业界: Google, Microsoft, IBM, HP, EMC, 百度 , 腾讯 学术界:学术会议,新建实验室,开设专业 偏向于系统方向的研究 综合数据挖掘、数据库、分布式计算等 编程工作量较大 推荐相关课程:分布式操作系统, 分布式数据库 , ,数据挖掘. 学习方法. 如果硕士毕业后想去大企业 增强动手能力 参与开源项目 发表论文 如果读博,继续做科研 培养对科研的兴趣 提高学术论文的阅读和写作能力 增强动手能力 找 对研究方向 发表论文. 建议.
E N D
研究方向 • 云计算与大数据 • 国内外最热门的研究方向 • 工业界:Google, Microsoft, IBM, HP, EMC, 百度, 腾讯 • 学术界:学术会议,新建实验室,开设专业 • 偏向于系统方向的研究 • 综合数据挖掘、数据库、分布式计算等 • 编程工作量较大 • 推荐相关课程:分布式操作系统,分布式数据库,,数据挖掘
学习方法 • 如果硕士毕业后想去大企业 • 增强动手能力 • 参与开源项目 • 发表论文 • 如果读博,继续做科研 • 培养对科研的兴趣 • 提高学术论文的阅读和写作能力 • 增强动手能力 • 找对研究方向 • 发表论文
建议 • 如何提高动手能力? • Just do it! • Just google it! • 读些优秀的开源项目 • 在已有代码之上修改 • 如何提高科研能力? • 读高水平论文(OSDI, NSDI, SOSP, SIGMOD, VLDB, SOCC, KDD, SIGCOMM) • Critical Review • Think big problem/Find new challenge • “学而不思则罔,死而不学则殆”
阅读材料 • Crafting Your Research Future——A Guide to Successful Master's and Ph.D. Degrees in Science & Engineering http://faculty.neu.edu.cn/cc/zhangyf/资源分享
科学态度 • 实事求是 • 杜绝数据造假,抄袭 • 踏实勤奋 • 避免眼高手低 • 合理安排时间 • 知难而进 • 量力而行 • 团队合作 • 集体荣誉感 • 重视交流讨论,避免闭门造车
定期组会 • 每周一次 • 每次由一位研究生主讲,介绍论文
假期作业 • 学会用Hadoop • 3个编程作业 • 熟悉Hadoop指定模块源代码 • MapReduce核心流程 • 数据处理 • 网络 • HDFS • 读paper,熟悉研究方向
作业1 • 利用Hadoop,提取出Twitter数据集的tweet(微博)中出现频率最高的100个word • 200GB的Twitter数据集 • 提取Twitter数据集中的tweet数据 • 要排除stop word • 976803048
作业2 • 利用Hadoop,实现PageRank算法,在给定数据集上计算PageRank,输出PageRank排序的结果 • 熟悉PageRank算法 • 真实网页连接图数据集 • Google webgraph • Berkeley & stanfordwebgraph • 取迭代100次后的结果或自己设计收敛条件
作业3 • 实现B+ Tree索引,构建Twitter数据集的索引。输入用户ID,返回该用户发过的所有微博 • 熟悉B+ Tree数据结构 • Twitter数据集 • 按发表时间返回微博