360 likes | 452 Views
面向视觉处理的 可重构阵列互连技术研究. 刘江明 2014.04.15. 目录. 可重构阵列架构及互连. 视觉信息处理算法并行验证. 基于 RANSAC 的图像匹配算法改进. 可重构阵列架构设计及算法映射验证流程. Ⅰ. 可重构阵列架构及互连. 可重构阵列架构及互连的初步功能设计. PE 单元模块、 Router 互连结构设计. PE 阵列设计;可重构架构建模设计、仿真. 可重构阵列架构及互连的初步功能设计. RPU ( Reconfigurable Processing Unit )功能设计. 可重构阵列架构及互连的初步功能设计.
E N D
面向视觉处理的可重构阵列互连技术研究 刘江明 2014.04.15
目录 可重构阵列架构及互连 视觉信息处理算法并行验证 基于RANSAC的图像匹配算法改进
Ⅰ 可重构阵列架构及互连 可重构阵列架构及互连的初步功能设计 PE单元模块、Router互连结构设计 PE阵列设计;可重构架构建模设计、仿真
可重构阵列架构及互连的初步功能设计 RPU(Reconfigurable Processing Unit)功能设计
可重构阵列架构及互连的初步功能设计 PEA(Processing Element Array)功能设计
可重构阵列架构及互连的初步功能设计 PE(Processing Element)功能设计
Ⅰ 可重构阵列架构及互连 可重构阵列架构及互连的初步功能设计 PE单元模块、Router互连结构设计 PE阵列设计;可重构架构建模设计、仿真
PE单元模块、Router互连结构设计 PE(Processing Element)模块内部设计
PE单元模块、Router互连结构设计 PE阵列内部Router互连结构设计 • n后面接一个二维坐标(x , y),表示当前PE要访问PE的相对位置。 • x表示目标PE相对当前PE在横向上移动的距离(正数向右,负数向左),y表示纵向上移动的距离(正数向上,负数向下)。 • 目前合法的router坐标有: • 相邻的四个PE(上、下、左、右)。即(0,1), (0,-1), (-1,0), (1,0)。 • 距离为2的四个PE(上跳、下跳、左跳、右跳)。即(0,2), (0,-2), (-2,0), (2,0)。 • 上一行和下一行的部分PE(相邻行间互联)。对于4*4的阵列,目前合法的坐标有(1,1), (1,-1), (-1,1), (-1,-1)。 • 本PE在上一机器周期的输出数据。即(0,0) • 一个PE的输出可以被多个PE在下一个机器周期通过router同时访问。
Ⅰ 可重构阵列架构及互连 可重构阵列架构及互连的初步功能设计 PE单元模块、Router互连结构设计 PE阵列设计;可重构架构建模设计、仿真
PE阵列设计;可重构架构建模设计、仿真 接下来需要完成的工作 基于PE单元、互连结构的PE阵列(4*4)设计 可重构整体架构的模型搭建、仿真(SystemC & Verilog) 在利用视觉处理算法仿真和验证的过程中,根据功能、性能的相关结果,对部分硬件结构进行优化(如双口Shared Memory,具有数据分发功能的平台级Router)
Ⅱ 视觉信息处理算法并行验证 • 运算密集(compute intensive) • 数据密集(data intensive) • 控制密集(control intensive) 2D-DCT等单kernel算法应用的并行映射 面向并行计算的算法应用类型划分,目前在学术界得到较广泛承认的是伯克利大学一份技术报告中提出的分类方法。 根据:相似数据结构或访存行为——13 dwarfs RANSAC等多kernel算法应用的并行映射 与可重构平台的联合仿真验证 根据分类标准,将视觉信息处理算法合理的分类,并进而分割、映射,最终在可重构处理器上实现。
Ⅱ 视觉信息处理算法并行验证 视觉信息处理算法并行验证 2D-DCT等单kernel算法应用的并行映射 RANSAC等多kernel算法应用的并行映射 与可重构平台的联合仿真验证
2D-DCT等单kernel算法应用的并行映射 算法应用并行映射流程 分析算法,划分所属kernel 分析算法的计算特征(加减乘除、浮点/定点/整型、计算复杂度分析,数据密集型/计算密集型/控制密集型,计算量、访存量) 分析算法的访存特征(各个kernel的访存复杂度分析、变量名称、数据量、输入/输出、最大并发访问数量) 根据分析和可重构PE单元功能和互连,将算法主要部分(kernel)用数据流图(Data Flow Graph,DFG)的形式表达。 数据准备和在Shared Memory中的安排 将最终的并行映射表达成配置信息的形式
2D-DCT等单kernel算法应用的并行映射 完成2D-DCT等算法的映射 采用稠密矩阵乘法类映射的方法,映射为对应DFG图 每两个PE一组进行一组乘、加运算 PEA各PE功能(每两个PE组成一组) 软流水PE功能演化及配置压缩过程DFG图
2D-DCT等单kernel算法应用的并行映射 完成2D-DCT等算法的映射 数据准备和在Shared Memory中 的安排
2D-DCT等单kernel算法应用的并行映射 完成2D-DCT等算法的映射 • 将最终的并行映射表达成配置信息的形式
Ⅱ 视觉信息处理算法并行验证 视觉信息处理算法并行验证 2D-DCT等单kernel算法应用的并行映射 RANSAC等多kernel算法应用的并行映射 与可重构平台的联合仿真验证
RANSAC等多kernel算法应用的并行映射 正在进行RANSAC等算法的映射 • 分析算法,划分所属kernel:Map Reduce 映射化简& Back-track and Branch +Bound 回溯与分支限界。控制密集型&计算密集型 • 分析算法的计算特征 • 热点 1(inv_matrix_3) • 3*3矩阵求逆(1次) • 热点 2(mul_matrix_3) • 两个3*3矩阵相乘(1次) • 热点 3(cal_distance) • 两点之间欧氏距离di(次数:角点对数量) • 热点 4(count_inliers) • 统计内点数量:比较、+1(内点对数量次) • 内点对欧氏距离di的总和D :累加(内点对数量次) • 非热点 1 • 1*3向量×3*3矩阵(次数:角点对数量)
RANSAC等多kernel算法应用的并行映射 接下进行RANSAC等算法的映射 • 分析算法的访存特征(各个kernel的访存复杂度分析、变量名称、数据量、输入/输出、最大并发访问数量) • 根据分析和可重构PE单元功能和互连,将算法主要部分(kernel)用数据流图(Data Flow Graph,DFG)的形式表达。 • 数据准备和在Shared Memory中的安排 • 将最终的并行映射表达成配置信息的形式
Ⅱ 视觉信息处理算法并行验证 视觉信息处理算法并行验证 2D-DCT等单kernel算法应用的并行映射 RANSAC等多kernel算法应用的并行映射 与可重构平台的联合仿真验证
与可重构平台的联合仿真验证 工作展望 已完成2D-DCT在可重构阵列C++行为模型平台的功能验证。 接下来需要完成所有6种视觉信息算法在可重构阵列上的并行映射。 完成视觉信息处理算法与可重构行为模型平台的联合仿真,相互验证功能正确,初步分析性能。并对算法映射、可重构硬件结构进行优化。
Ⅲ 视觉信息处理算法并行验证 基于RANSAC的图像匹配算法改进 国内外发展及研究现状&算法基本原理 基于约束随机采样和极大似然概率模型的优化改进
基于RANSAC的图像匹配算法改进 国内外发展及研究现状&算法基本原理 • 最先由Martin A. Fischler 和 Robert C. Bolles于1981年提出。 • RANSAC算法历经30多年演化,已经形成多个经典可靠的衍生算法。 • RANSAC ( RANdom SAmple Consensus,随机抽样一致性)是一种基本子集的目标函数的优化方法 ,通过随机取样剔除局外点的影响 ,以期构建一个仅由局内点数据组成的基本子集 。 • 由两幅图像上匹配的特征点集估计变换矩阵H时,由于特征点会受到一定噪声污染 , 同时还有可能存在误匹配 ,所以将特征点集划分两类 : 局内点数据和局外点数据 。 • 而局外点数据是误匹配的特征点对 。 对该问题解决的方案是采用 RANSAC方法 ,通过重复地随机取样数据基本子集 ,利用基本子集估算变换矩阵H。
基于RANSAC的图像匹配算法改进 国内外发展及研究现状&算法基本原理 • 一般情况下 ,随机取样基本子集的数目必须确保在所有取样子集中 , 至少有一个数据基本子集包含的数据全部是局内点数据的概率大于95 %。基本子集数目n(迭代次数)与至少取得一个良性取样子集的概率 Γ ( Γ >95% ) 之间关系的公式如下: • (1) • 其中ε 表示局外点占数据集的比例 , m表示基本子集中数据点的数目。
基于RANSAC的图像匹配算法改进 国内外发展及研究现状&算法基本原理 • RANSAC基本流程 • 提取特征 • 估计匹配特征点数据集 • 循环重复n次 ,如果 ε发生变化 , 使用公式 (1)做相应调整 • 1)在数据集中,随机取样基本子集 ; • 2)由基本子集,计算变换矩阵H; • 3)评估基本矩阵 F 的相容性; • 对数据集中所有数据点 , 利用前面求出的变换矩阵H计算代数误差 • 计算与变换矩阵H相关的目标函数(阈值) , 划分数据为局内点和局外点 。 • 选择对应具有最多局内点数目的变换矩阵H。 • 利用所有局内点重新计算变换矩阵H。
基于RANSAC的图像匹配算法改进 国内外发展及研究现状&算法基本原理 • 评估基本矩阵 F 的相容性 • 研究热点 • Torr P H S, Zisserman A. MLESAC: A new robust estimator with application to estimating image geometry[J]. Computer Vision and Image Understanding, 2000, 78(1): 138-156. • 提出了一种非常经典的RANSAC改进方法——MLESAC • 利用似然估计模型,转化为一个约束的最优化问题 • 同时假设匹配点受到高斯噪声的污染,并用高斯分布和均匀分布的模型来描述测量值与真实值之间的误差 • 主要公式如下
基于RANSAC的图像匹配算法改进 国内外发展及研究现状&算法基本原理 • Nistér D. Preemptive RANSAC for live structure and motion estimation[J]. Machine Vision and Applications, 2005, 16(5): 321-329. • 在MLESAC的基础上进一步改进 • 正常计算投影变换时,一般3对匹配点。改进:利用4对点,降低复杂计算的代价,进行预处理。 • 利用Cauchy来描述模型的误差利用似然估计模型,并为了减少计算瓶颈带来的计算困难,将投影误差分为10对点一组进行计算。
基于RANSAC的图像匹配算法改进 国内外发展及研究现状&算法基本原理 • Cheng L, Li M, Liu Y, et al. Remote sensing image matching by integrating affine invariant feature extraction and RANSAC[J]. Computers & Electrical Engineering, 2012, 38(4): 1023-1032. • 在内外点划分过程中,对于判断阈值进行动态调整 • 调整主要依据当前点集的特征,主要分为两种动态调整算法 • 采用尽可能小的threshold,来获得几乎没有误差的内点对,并在迭代中,不断利用下面的公式,对threshold进行扩大,直到某个对应的threshold下,内点对中出现无差点对。 • 采用尽可能大的一个threshold ,来获得包含误差的内点对。利用内点中的正确率以及内点数量作为判断:如果正确率低于40%,那么就将threshold减半,并反复迭代,直到正确率达到所要求的值。
基于RANSAC的图像匹配算法改进 国内外发展及研究现状&算法基本原理 • Yan Q, Xu Y, Yang X, et al. HEASK: Robust homography estimation based on appearance similarity and keypoint correspondences[J]. Pattern Recognition, 2014, 47(1): 368-387. • 集成了基于像素的优点和基于特征的单应矩阵估计方法的优点 • 极大似然框架下结合了外观相似性和关键点对应关系的概率模型 • 选择用拉普拉斯分布代替高斯分布来描述内点坐标误差分布,在描述重尾分布上有更好的效果 • 采用ECC(加强相关系数)描述参考图像与待变换图像之间的相似性。
基于约束随机采样和极大似然概率模型的优化改进基于约束随机采样和极大似然概率模型的优化改进 随机采样会浪费大量时间,约束条件下的随机采样,可以提高迭代效率。根据特点条件,过随机采样。 结合极大似然概率模型,将RANSAC计算H矩阵过程转化为最优化问题。采用拉普拉斯分布模型描述像素坐标误差。 采用动态threshold的算法,找到最适合样本的threshold,进而获得最精确的内点集和计算结果H。 利用所有内点进行最精确的计算。 • RANSAC基本流程 • 提取特征 • 估计匹配特征点数据集 • 循环重复n次 ,如果 ε发生变化 , 使用公式 (1)做相应调整 • 1)在数据集中,随机取样基本子集 ; • 2)由基本子集,计算变换矩阵H; • 3)评估基本矩阵 F 的相容性; • 对数据集中所有数据点 , 利用前面求出的变换矩阵H计算代数误差 • 计算与变换矩阵H相关的目标函数(阈值) , 划分数据为局内点和局外点 。 • 选择对应具有最多局内点数目的变换矩阵H。 • 利用所有内点重新计算变换矩阵H。
参考文献 [1] D. Rossi , F. Campi , S. Spolzino , S. Pucillo and R. Guerrieri "A heterogeneous digital signal processor for dynamically reconfigurable computing", IEEE J. Solid-State Circuits, vol. 45, no. 8, pp.1615 -1626 2010. [2]Rossi D, Mucci C, Campi F, et al. Application space exploration of a heterogeneous run-time configurable digital signal processor[J]. Very Large Scale Integration (VLSI) Systems, IEEE Transactions on, 2013, 21(2): 193-205. [3] Asanovic K, Bodik R, Catanzaro B C, et al. The landscape of parallel computing research: A view from Berkeley[R]. Technical Report UCB/EECS-2006-183, EECS Department, University of California, Berkeley, 2006.
参考文献 [4] Asanovic K, Bodik R, Demmel J, et al. A view of the parallel computing landscape[J]. Communications of the ACM, 2009, 52(10): 56-67. [5] Fischler M A, Bolles R C. Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography[J]. Communications of the ACM, 1981, 24(6): 381-395. [6] Wang H, Suter D. Robust adaptive-scale parametric model estimation for computer vision[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2004, 26(11): 1459-1474. [7] Rousseeuw P J, Leroy A M. Robust regression and outlier detection[M]. John Wiley & Sons, 2005. [8] Cheng C M, Lai S H. A consensus sampling technique for fast and robust model fitting[J]. Pattern Recognition, 2009, 42(7): 1318-1329.