1 / 9

数据处理第一阶段工作汇报

数据处理第一阶段工作汇报. 郭鑫. 任务内容. 1. 完成图片,音乐,视频内容的特征提取 可扩展 ---- 具体应用相关 性能 2. 完成 数据挖掘一些 算法 没有明确需求. 第一阶段任务. 完成图片,音乐的特征提取 图片特征: colorlayout , edgehistogram , tamura 音乐特征: MFCC 完成元数据信息的 提取 文件名,大小 文件类型 文件作者 图片缩略图 音频文件长度 最新修改时间. 第一阶段完成情况. 特征提取两个接口 单个文件的特征提取 单机测试完成 读取写入底层文件系统测试完成

Download Presentation

数据处理第一阶段工作汇报

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 数据处理第一阶段工作汇报 郭鑫

  2. 任务内容 • 1. 完成图片,音乐,视频内容的特征提取 • 可扩展----具体应用相关 • 性能 • 2. 完成数据挖掘一些算法 • 没有明确需求

  3. 第一阶段任务 • 完成图片,音乐的特征提取 • 图片特征:colorlayout,edgehistogram,tamura • 音乐特征:MFCC • 完成元数据信息的提取 • 文件名,大小 • 文件类型 • 文件作者 • 图片缩略图 • 音频文件长度 • 最新修改时间

  4. 第一阶段完成情况 • 特征提取两个接口 • 单个文件的特征提取 • 单机测试完成 • 读取写入底层文件系统测试完成 • 文件列表的特征提取 • 单机测试完成 • Mapreduce的底层使用失败 • 元数据提取 • 单机测试完成

  5. 第一阶段完成情况 • 可扩展性 • 统一接口:FeatureExtractor • 性能 • 使用mapreduce分布式地进行批量特征提取 • 图片特征:1000个图片100s。音乐特征:1个音乐文件30s)

  6. 遇到的问题 • 特征提取 • 音频特征的时序问题(需调研) • 一个文件对应多个特征,如何索引? • 视频特征 • 一般的视频特征:一个视频文件,多个图片,多个图片特征 • 如何存储? • 如何索引?

  7. 遇到的问题 • 特征提取 • 使用分布式进行特征提取时,遇到各类问题 • 配置,jar包等问题 • Semantic的提取??

  8. 遇到的问题 • 元数据信息提取 • 文件作者信息的提取,目前的jdk不能支持

  9. 第二阶段工作 • 视频特征提取 • 数据挖掘算法(需求??)

More Related