640 likes | 835 Views
Network Design and Analysis. Wang Wenjie Wangwj@gucas.ac.cn. Queueing System V Self-similarity Traffic. Self-similarity Traffic. Self-similar phenomena Application of self-similarity to data traffic Performance Implications Overview of Source Models for ATM. Burstiness(1). Burstiness(2).
E N D
Network Design and Analysis Wang Wenjie Wangwj@gucas.ac.cn
Queueing System V Self-similarity Traffic
Self-similarity Traffic Self-similar phenomena Application of self-similarity to data traffic Performance Implications Overview of Source Models for ATM
Self-similar phenomena • A phenomenon that is self-similar looks or behaves the same when viewed at different degrees of “magnification” or different scales on a dimension (time or space) • We are concerned w/ time series and stochastic processes that exhibit self-similarity with respect to time • Aggregating streams of such traffic intensifies the self-similarity instead of smoothing it. • Aggregation causes more burstiness and requires larger buffers.
Example 1.1(1) • 1Mbs传输链路,4000bits的帧,每一个帧的传输时间为4ms。 • 在接收者接收帧到达的时间(每一个帧的第1位到达): 0 8 24 32 72 80 96 104 216 224 240 248 288 296 312 320 648 656 672 680 720 728 744 752 864 872 888 896 936 944 960 968 • 特点: • 很难给出到达的统计规律和特性 • 呈现出突发性 • 一些到达时间紧密组合在一起,一些到达时间松散,最大间隔328 ms(从320到648),很多比较小的间隔40 ms左右。
Example 1.1(2) • 压缩这个传输,分成集群,在每个集群中到达帧之间的间隔不超过5个帧的传输时间(20 ms),并且记录每个集群的开始时间: 72 216 288 648 720 864 936 • 进行更大的压缩,在每个集群中到达帧之间的间隔不超过10个帧的传输时间(40 ms),并且记录每个集群的开始时间: 0 216 648 864 • 特点: • 时间序列呈现相同的样式,与压缩或解的程度无关。 • 自相似的本质
Example 1.2 : Cantor Set • Begin with closed interval [0,1] represented by a line segment • Remove the middle third of the line • At each step, remove the middle third of the segments created by the previous step
Properties(1) • Self-similar phenomena have structure at arbitrarily small scales (contrast w/ a smooth continuous curve) • A self-similar structure contains smaller replicas of itself at all scales (for real phenomena, properties don’t hold indefinitely; however, they hold over a large range of scales)
Properties(2) • Queue size builds up more than would be expected. • Aggregation of self-similar sources is not smooth. • Just as Stochastic processes are invariant to time, self-similar processes are invariant to scale.
Why do we care? • If network traffic is self-similar, there is significant amount of clustering at all time scales, requiring more buffering. • Contrast with Poisson traffic, where clustering occurs in the short term but traffic smoothes out over the long term.
Impact on Network Engineering • Queuing delays are much higher in the presence of long range dependence than for Poisson traffic • To avoid dropping packets , buffers have to be huge • You have to be very careful predicting future traffic based on past measurement
Continuous-time Definition Defn 1.1 - A stochastic process X(t) is statistically self-similar with parameter H (0.5 H 1) if for any real a > 0 : Or we can say a stochastic process X(t) is statistically self-similar with parameter H (0.5H1) if for any >0, the process -HX(t) has the same statistical properties as X(t).
The Hurst Parameter • H is the Hurst Parameter, a key measure of self-similarity • H=0.5 indicates the absence of self-similarity • H closer to 1 indicates a higher degree of persistence of long-range dependence
布朗运动(1) • 布朗运动是悬浮在液体或气体中的极小粒子由于周围介质分子的碰撞而产生的随机走动.它是布朗运动随机过程定义的基础 • 令函数B(t)表示做布朗运动的粒子在一个维度内经过时间t后离开一个开始点的位移,具有独立增量.
布朗运动(2) • B(t)可以定义为满足下面的过程 • {B(t), 0 t <}有平稳随机过程 • 对于每一个t>0,随机变量B(t)有一个正态分布函数 • 对于所有的t>0, E[B(t)]=0 • B(0)=0 对布朗运动: Var[B(t)]=t Var[B(t)-B(s)]=|t-s| RB(t1, t2)=E[B(t1) B(t2)]=min{t1, t2}
布朗运动(3) • 布朗运动是自相似的: H=0.5 (1) E[B(at)]=0 E[B(t)]=0 (2) Var[B(at)]=at=aVar[B(t)] (3) RB(at, as)=min{at, as}=a min{t,s} =aRB(t, s)
分数布朗运动 (FBM)(1) • FBM是布朗运动的一个变体,是通过放松对独立增量要求得到的. • 一个FBM过程BH(t)定义如下: BH(t) = XtH (t>0, 0.5 H1 ) X是一个正态分布的随机变量,它的均值为0,方差为1。
分数布朗运动 (FBM)(2) • Mean 1)E[BH(t)]=E[XtH]=tHE[X]=0 2) E[BH(at)]= b) Variance 1)Var[BH(t)]=Var[XtH]=t2HVar[X]=t2H 2) Var[BH(at)]=
分数布朗运动 (FBM)(3) c) 自相关系数:
分数布朗运动 (FBM)(5) • 布朗运动过程和FBM过程最显著的区别在于前者有孤立和无关的间隔,而后者有无限长运行相关。 • 注意 • 当H=0.5时,FBM描述了一个一般布朗运动过程,过去增量和进一步增量的相互关系消失了,它有孤立增量。
分数布朗运动 (FBM)(6) • 当H > 0.5时,FBM过程有值得注意的持续特性。在这种情况下,在过去的某个时刻我们有一个正增量,那么平均在将来也将有一个正增量。因此,在过去的一个增量(减量)趋势意味着在将来的一个增量(减量)趋势。这个相互关系可应用于任意大的t值,并且随着H值的增大而加强。 • 持续行为与随机现象常规的假定是冲突的。一些随机过程,例如布朗运动过程,有孤立的增量。对于许多其他过程,当间隔时间增量很小时,我们可以认为事件之间是相互关联的;但当间隔时间增量很大时,我们就一定假定它们变成无关的。
We now turn to two concepts that are related to self-similarity • Long-range dependence • Heavy-tailed distribution
Long-range dependence(1) • 长程相关定义—若一个随机过程满足自相似的条件1和条件2,即其自相关函数随时滞的增加呈双曲线衰减(幂律衰减),则该随机过程呈现长程相关性 • 长程相关≠自相似,自相似是长程相关的特例/简单模型 • 长程相关特性以τ增加时自协方差C(τ)的行为来定义。 • 对许多过程来说,自协方差随着τ快速减弱。例如,泊松增加过程具有增量L和均值λ,对于τ> L,自协方差是:
Long-range dependence(2) • 一般,一个短程相关(short-rang dependent)过程满足条件:它的自协方差减弱速率至少同指数一样快,有 其中~表示两边的表达式是彼此渐进成比例。 • 一个长程相关有双曲线减弱的自协方差: 其中β是相关的突发参数,H = 1 - (β/2)。
Long-range dependence(3) • 长程相关直观地影响自相似过程的持续性,亦即,在所有时间级别上集群和突发特性的存在。 • 不可和性,即∑kC(k)=∞。不可和性的物理意义在于高滞后的相关虽然是个别的小量,但其累计的结果则十分重要 • 短相关过程自相关函数呈指数衰减,其自相关函数是可和的,即0<∑k C(k)<∞
Heavy-tailed Distributions(1) • 重尾分布可由概率密度表达,概率密度函数用于描述传输过程,例如,分组到达的间隔时间和突发长度。 • 一个随机过程X的分布说是重尾的,如果: • 一般,具有重尾分布的随机变量具有较高甚至无穷大的方差。具有重尾分布的随机变量将会以不可忽略的概率取到非常大的数值
The Pareto Distribution (1/3) 最简单的重尾分布是Pareto分布,具有参数 k ,> 0
The Pareto Distribution (2/3) • 参数k规定随机变量可取的最小值。参数决定随机变量的均值和方差:如果2,分布有无限的方差;如果1,它有无限的均值和方差。
网络变量(如文件长度和连接的持续时间)的重尾分布可能是导致网络通信量的长程相关性和自相似的根本原因网络变量(如文件长度和连接的持续时间)的重尾分布可能是导致网络通信量的长程相关性和自相似的根本原因 The Pareto Distribution (3/3)
自相似数据传输的建模与估计 • 一般的自相似数据传输分析的方法:首先判断实际数据到达时间序列是否自相似;如果是自相似的,估价自相似参数H • 常用的方法主要有: • 方差时间图 • R/S图 • Whittle估价 • 周期图 • 估价H
方差时间图 • 一自相似过程的压缩时间序列,对于大的m,方差服从: 其中自相似参数H = 1 - (β/2)。这个式子可以写作: 由于log[Var(x)]是与m无关的常数,如果我们在log-log图上画Var()作为m函数曲线,结果将得到一条斜率为-β的直线
R/S图(1) • 对于离散时间取值的随机过程X(t),在时间段N上规范化定义为: M(N)是在时间段N上的样本均值 • 原始的时间序列分为大小为n的块,对每个块计算其R/S • R/S式中的分子是过程变化范围的度量,分母是样本标准差.
R/S图(2) • 对于一个自相似过程,R/S在N很大的时候有下面特性: 重写为: 如果将[R/S]与N的关系画在一张对数-对数图上,则所得的曲线应符合一条斜率为H的直线.
Whittle估价 • 方差时间图和R/S图属于启发式或直观的方法, 不能用于获得H的精确估价,但可以得到粗略的值 • 估计一个 给定的数据序列是否具有自相似特性(H > 0.5),或者给定的数据序列属于传统短范围相关模型(H≈0.5) • Whittle估价属于精确的估价 • 频域分析 • 协方差函数傅立叶变换功率谱 • 用周期图近似估计功率谱 • 从谱密度中找到参数H
周期图(1) • 在随机过程理论中,一个典型的问题是估价静态过程x(t)的功率频谱S(w) ,也就是只有x(t)在一段有限时间内的一个样本. • 对于一个离散时间静态随机过程,自动相关和频谱密度定义如下: • 如果假定这个过程是遍历的(时间平均等于样本空间平均 ),那么就能用下式估价自动相关函数
周期图(2) • 定义在离散时刻{xt, t = 0, 1, 2, …}上随机过程x(t)的频谱密度可通过在时间段N上取Fourier级数得出估计值
估计H • 假设所观察的时间序列是一个具有参数H的自相似随机过程,并且假设它具有一定的形式,例如分数布朗运动过程。那么,这个过程的频谱密度能够表达为S(w, H),其中密度形式可知,但参数H未知。 • H值可以通过使下式最小化得到: 这成为Whittle估计器。如果序列{xt}有长度N,那么向前积分容易转换成在频率w = 2π/N, 4π/N, …, 2π上的离散和。这个方法的一个优点是它不仅产生H的估价,而且产生样本的方差,以致于置信区间可以计算。 • 方差时间图和R/S图是用于测试一个时间序列是否是一个自相似,如果是,就获得H的一个粗略估价。而Whittle估价不同于方差时间曲线方法,它假定一个时间序列是一个实际形式的自相似过程,然后提供H估价的一个置信区间
Plots Showing Self-Similarity H=1 H=0.5 Estimate H 0.8
Application of Self-Similarityto Data Traffic It turns out data traffic is well-modeled as a self-similar process in many practical networking situations, including: • Ethernet traffic • WWW traffic • SS7 traffic • TCP, FTP, Telnet traffic • VBR video
Ethernet Traffic • Leland et al. “On the Self-Similar Nature of Ethernet Traffic” ACM SIGComm’93. • Straight-forward queuing analysis using Poisson traffic assumptions inadequate to model Ethernet traffic – Triggered a flood of research into self-similarity