1 / 46

发电商竞标策略研究与 分布式仿真系统实现

发电商竞标策略研究与 分布式仿真系统实现. 报告人:李长山 指导老师:高峰 教授. 论文内容. 研究的相关背景 发电商竞标策略的优化方法 考虑机组约束的发电商竞标策略 分布式仿真系统实现 总结与展望 回答评审老师的问题. 研究背景. 传统电力工业 电力市场. 经济效益低下. 发电. 输电. 系统控制. 配电. 供电. 引入竞争机制,优化资 源配置. 市场及系统操纵者. 购电. 发电. 电网. 本文的研究对象. 本文主要从发电侧市场中的发电商角度出发,对其竞标策略 进行研究,没有考虑购电侧市场。. 竞标策略研究.

Download Presentation

发电商竞标策略研究与 分布式仿真系统实现

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 发电商竞标策略研究与 分布式仿真系统实现 报告人:李长山 指导老师:高峰 教授

  2. 论文内容 • 研究的相关背景 • 发电商竞标策略的优化方法 • 考虑机组约束的发电商竞标策略 • 分布式仿真系统实现 • 总结与展望 • 回答评审老师的问题 系统工程研究所 李长山

  3. 研究背景 • 传统电力工业 • 电力市场 经济效益低下 发电 输电 系统控制 配电 供电 引入竞争机制,优化资 源配置 市场及系统操纵者 购电 发电 电网 本文的研究对象 本文主要从发电侧市场中的发电商角度出发,对其竞标策略 进行研究,没有考虑购电侧市场。 系统工程研究所 李长山

  4. 竞标策略研究 • 制定竞标策略所考虑的问题 • 机组和输电网络的固有约束 • 市场规则、信息 • 其他发电商的竞标策略 • 竞标问题的难点 • 更多的准确的信息 • 其他参与者的策略 • 市场本身的不确定性 本文的研究方法 本文通过仿真的方法,模拟电力市场的行为,分析电力市场的竞 标规则,优化市场参与者的竞标策略 。 系统工程研究所 李长山

  5. 论文内容 研究的相关背景 发电商竞标策略的优化方法 考虑机组约束的发电商竞标策略 分布式仿真系统实现 总结与展望 回答评审老师的问题 系统工程研究所 李长山

  6. 发电商竞标策略的优化方法 • 预测市场清算价 • 基本思想: 在准确估计市场清算价的基础上,提交一个略为 便宜的价格即可 。 • 模型特点 具有长期的稳定性 与负荷变化密切相关 历史数据不够全面 系统工程研究所 李长山

  7. 针对上面的数学模型,通过对历史数据的分析计算,对其他对手竞标各段报价对进行估计,应用统计学的方法可以得到对手竞标行为的概率分布。进而可以确定市场出清价格 ,使得上述的优化问题就变成了随机优化问题。 发电商竞标策略的优化方法 • 预测其他竞争对手的报价行为 • 基本方法 对竞争对手的报价策略和成本等信息进行预测,然后利用概 率的方法得到最优方案。 • 数学模型 s.t. 系统工程研究所 李长山

  8. 发电商竞标策略的优化方法 • 基于博弈论的策略性报价 • 期望收益 • 最大收益与报价 期望收益函数 市场电价的概率分布 说明 可以将上述方案产生的报价是针对每个时段一个报价对的情况,可以以此为最低报价,通过离散化产生多个报价对。 系统工程研究所 李长山

  9. 三种竞标策略的比较 其他研究方法 运用多Agent技术,对电力市场进行模拟,各智能体自我学习, 自我决策,从而找出最优决策。 系统工程研究所 李长山

  10. 论文内容 研究的相关背景 发电商竞标策略的优化方法 考虑机组约束的发电商竞标策略 分布式仿真系统实现 总结与展望 回答评审老师的问题 系统工程研究所 李长山

  11. 考虑机组约束的发电商竞标策略 • Q学习方法 • Q学习策略模型 • 市场模式 • 数学描述 • Q学习策略模型 • 仿真案例分析 • 确定与非确定环境下的Q学习 • 各种因素对Q学习策略的影响 系统工程研究所 李长山

  12. Q-Learning Agent 状态 动作 回报 环境 a0 a1 a2 … s0 s1 s2 r0 r1 r2 目标:学习选择动作使下式最大化 系统工程研究所 李长山

  13. Q-Learning算法 Agent学习任务是学习一个控制策略 可利用的训练信息为 。 选定数值评估函数V*,则在状态s下的最优动作为 条件:具有回报函数r和状态转移函数的完美知识。 定义Q函数 则 由此可知,在缺少r 或的知识时,Agent也 可做到选择最优动作。 系统工程研究所 李长山

  14. 关于Q的学习 由Q与V*的关系: 得 在实际中,Q值通过Agent同环境的不断交互学习获得更新,以逼近实际值。 通过对Q值的学习,Agent只需考虑其当前状态s下的每个可用动作a,并选择其中使Q(s,a)最大化的动作,就可以得到最优决策。 Q-Learning算法 系统工程研究所 李长山

  15. Q-Learning算法 • 对每个<s,a>初始化表项Q#(s,a) • 观察当前状态s • 如果n < Max Step • 选择一个动作a并执行 • 接收到立即回报r • 观察新状态s’ • 对Q#(s,a)进行更新 • s ← s’ 系统工程研究所 李长山

  16. 时前市场模式 • 竞标数据形式 • 分为24个报价时段; • 为后一时段进行报价 • 分3段报价; • 容量段价格递增; • 满足机组的约束条件。 • 结算方法 ∑=1680 MCP=280¥ 系统工程研究所 李长山

  17. 竞标问题的数学模型 约束: 状态转移约束 容量约束 机组爬升约束 最小开关机时间约束 首末开关机约束 变量说明: 机组在t时段得到的最优竞标出力 t时段的市场清算价 机组出力为p(t)时的燃料成本 机组启动成本 系统工程研究所 李长山

  18. Q学习策略模型 基本思想:n台机组作为参与者(player),将负荷波动和对手策略看作发电商Agent所需感知的环境(environment)。对于机组i,根据机组参数,离散化机组出力,将离散的出力作为机组的报价的段容量,也作为Q-learning的状态(state),每一个段容量有其相应的一组段价作为动作(action)。通过发电商同ISO交互的仿真过程,利用Q-learning得到报价机组的日报价均衡策略。 系统工程研究所 李长山

  19. s1 s2 sh+1 s1 s0 s0 sH sH sh s1 sh sH-1 2 q / L 4 6 2 q / L·h-1 ·h-1 2 q / L 4 6 2 q / L·h-1 ·h-1 2 q / L 4 6 2 q / L·h-1 ·h-1 2 q / L 4 6 2 q / L·h-1 ·h-1 2 q / L 4 6 2 q / L·h-1 ·h-1 2 q / L 4 6 2 q / L·h-1 ·h-1 2 q / L 4 6 2 q / L·h-1 ·h-1 2 q / L 4 6 2 q / L·h-1 ·h-1 sh-1 s0 Q学习策略模型 • 状态 • 动作 停机 最小开机 一般运行 最大开机 系统工程研究所 李长山

  20. . . . . . . . . . . . . . . . . . . Q学习策略模型 状态转移图 不同状态下,竞标策略中pi(t)的段容量<a ti1, a ti2, a ti3> : Pmax . . . . . . • s(t)=s0,<0, Pmin, 0><0, 0,0> • s(t)=s1,<0, 0, 0><0, Pmin, Д > • s(t)=sH,<Pmax- Д, Д, 0> • s(t)=sh,<pi(t) - Д, Д, Д > . . . . . . . . . . . . Pmin 为段容量<a ti1, a ti2, a ti3>配以不同策略下的申报价格<b ti1, b ti2, b ti3>就构成了机组i的竞标策略集{pie(t)}E,即Agent在s(t)的动作集合As(t)。 . . . . . . P0 t1 t2 t3 t24 系统工程研究所 李长山

  21. Q学习策略模型 • 回报 将Ri(t+1)作为t时刻回报r(s(t),a(t)),并且由pi(t+1)可以得到下一 时段状态s(t+1)。 • Q函数与动作选择 利用上面的状态转移模型,可将问题转化为如下Q学习问题 动作的选择 在状态s(t),利用Q值随机选择集合As(t)中的竞标策略作为动作a(t)。各个动作的选择概率由下式决定: 系统工程研究所 李长山

  22. Q学习策略的仿真案例 仿真环境 系统工程研究所 李长山

  23. 仿真案例中竞标策略类型 • Q学习策略 将边际成本的1倍、1.2倍、1.5倍分别为低(L)、中(M)、高(H),三档报价同段容量进行组合,构成竞标策略动作集As(t)。 例如,对于一般的三段报价,段价集{<b ti1, b ti2, b ti3>}共有{LLL, LLM, LLH, LMM, LMH, LHH, MMM, MMH, MHH, HHH}十种选择。 • 固定报价策略 在机组边际成本基础上申报递增的竞标曲线。 • 随机报价策略 在固定报价的基础上加入随机扰动 。 固定报价策略和随机报价策略分别用于模拟仿真算例中的确定性市场环境和 非确定性市场环境 系统工程研究所 李长山

  24. 确定性环境下的Q学习策略 1#机组采用Q学习策略,其他机组采用固定报价方式。 市场负荷需求为L1 利润随仿真次数的变化 机组状态随着仿真次数的变化 系统工程研究所 李长山

  25. 非确定性环境下的Q学习策略 两机组(1#,2#)采用Q学习策略,其他机组采用相对方差为5%的随机报价方式,市场的负荷需求为L1。 机组利润随仿真次数变化 MCP随仿真次数增加的变化 系统工程研究所 李长山

  26. 环境随机性对Q学习策略的影响 三种环境: • 确定性环境:系统负荷为L1,1#机组采用Q学习策略,其他4个机组采用固定报价方式 。 • 较小随机环境:系统负荷在L1的基础上按5%的相对方差随机扰动,1#机组采用Q学习策略,其他4个机组采用固定报价方式 。 • 较大随机环境:系统负荷在L1的基础上按10%的相对方差随机扰动,1#机组采用Q学习策略,其他4个机组采用相对方差为5%的随机报价方式 。 系统工程研究所 李长山

  27. 负荷需求对Q学习策略的影响 系统负荷按5%的相对方差随机扰动,1#机组采用Q学习策略,其他4个机组采用相对方差为5%的随机报价方式。 不同系统需求下1#机组的收敛状态 不同系统需求下1#机组总利润 系统工程研究所 李长山

  28. 论文内容 研究的相关背景 发电商竞标策略的优化方法 考虑机组约束的发电商竞标策略 分布式仿真系统实现 总结与展望 回答评审老师的问题 系统工程研究所 李长山

  29. Agent与多Agent系统 • Agent基本概念 • 自治性 • 社会能力 • 反应能力 • 自发行为 • Agent狭义概念 一个Agent是这样一个实体, 它的状态可以看作是由信念、能力、选择、承诺等心智状态组成的。 系统工程研究所 李长山

  30. Agent与多Agent系统 • 多Agent系统(MAS) Multi-Agent系统是指由多个Agent组成的系统,它 是为了解决单个Agent不能够解决的复杂问题,由 多个Agent协调合作形成的问题求解网络。 Multi-Agent系统 Agent1 复杂问题域 交流与协作 Agent3 Agent2 系统工程研究所 李长山

  31. Jade平台 线程 Agent3 Agent1 Agent2 进程 Main Container Agent Container Agent Container RMI机制 Network host Network host Link ACLMessage 系统工程研究所 李长山

  32. PX市场 PJM市场 市场类型 浙江市场 时前市场 基于多Agent竞标策略仿真系统 贪婪搜索 RE算法 竞标策略 调度算法 Q学习 竞标策略仿真系统 系统的仿真界面 现有系统的组织结构 系统工程研究所 李长山

  33. 数据库读写 数据库 数据库 Agent消息 ISO ISO ... GenCo GenCo GenCo ... GenCo GenCo GenCo ... 分布式仿真系统实现 系统改造前后的组织结构图 系统工程研究所 李长山

  34. 分布式仿真系统实现 • 主要实现方法 • 新建数据类,对竞标结算数据进行封装。 • 创建新数据结构,对Agent的基本信息进行存储。 • 在ACL Message上加载数据类的实例,利用Java中的序列化机制,在Agent之间实现竞标数据的传输 • 调整整个系统的竞标实现流程。 • 改写与调整数据库的读写 系统工程研究所 李长山

  35. Agent之间的信息交互 分布式仿真系统实现 系统工程研究所 李长山

  36. 仿真系统测试 系统Ⅰ:所有的Agent都运行于 一台PC上,读取同一数据库 。 系统Ⅱ :Agent分别运行于不同的PC上,但是读取同一数据库 。 系统Ⅲ :与系统Ⅱ类似,不同的是读取各自的数据库,消息实现双向传输。 测试环境:CPU为P4 3.0GHZ,内存为512MB;软件环境为JRE 5.0,Jade 3.1,Microsoft SQL Server 2000 个人版。 测试案例:时前市场模式,机组的竞标策略采用Q学习方法,仿真次数为200次。 系统工程研究所 李长山

  37. 仿真系统测试 仿真测试所用时间 系统工程研究所 李长山

  38. 论文内容 研究的相关背景 发电商竞标策略的优化方法 考虑机组约束的发电商竞标策略 分布式仿真系统实现 总结与展望 回答评审老师的问题 系统工程研究所 李长山

  39. 总结与展望 • 工作总结 • 对已有竞标策略优化方法的分析总结 • 考虑机组约束的发电商竞标策略 • 分布式仿真系统的实现 • 研究展望 • 竞标策略方面 • 考虑网络传输等更多约束的竞标策略 • 进化理论在电力市场中应用 • 仿真系统方面 • 市场模式,发电侧市场 • 充分发挥Agent的社会性,移动性等特点。 系统工程研究所 李长山

  40. 论文内容 研究的相关背景 发电商竞标策略的优化方法 考虑机组约束的发电商竞标策略 分布式仿真系统实现 总结与展望 回答评审老师的问题 系统工程研究所 李长山

  41. 卫老师的问题 把现有的多Agent竞标策略仿真系统改造成以 分布式运行的系统,是基于何种考虑。 • 对系统分布式的改造主要是因为原来集中式系统的性能满足不了仿真的需求,主要表现为: • 随着仿真个体数量的增加,系统的性能将会显著下降。 • 高复杂度的算法的引入,需要计算资源越来越多。 另外,分布式系统的实现有利于系统功能开发与扩展。 系统工程研究所 李长山

  42. 卫老师的问题 在分布式仿真系统中有一个非常重要的问题就 是通信和同步,有些情况下用于通信和同步的 开销可能很大,请问如何解决分布节点之间的 同步问题。 • 系统用多线程的阻塞与唤醒机制来同步多个Agent。 • 举例:在ISO与多个GenCo交互的过程中,为了同步ISO与多个GenCo的通信,首先阻塞ISO线程,轮询等待GenCo发送消息到来,等到所有的GenCo都发来消息,唤醒ISO 线程进行下一步动作,如果一个GenCo在特定的时间内一直没有发来消息,则ISO进行下一步动作并且发送一个提示消息给该GenCo。 系统工程研究所 李长山

  43. 仿真系统流程 系统工程研究所 李长山

  44. 卫老师的问题 在表4-1中,系统2和系统3的差别不大,运行时 间也相差不多,请解释CPU利用率为什么相差 如此之大。 • 如论文中所述,系统Ⅱ部分的CPU使用率是ISO端的,在仿真测试环境中,数据库和ISO是运行于同一PC之上。 • 在测试前,去掉了所有无关进程。 • 由于在仿真过程中,仿真次数很多,如几千次,上万次;并且个别表中所记录的数据维数很大,例如Q学习中的Q函数值为24×10×10的三位数组。这就造成了表中的数据项非常多。在进行仿真的时候,各个GenCo需要对表进行查询检索,需要占用较多的CPU时间。(参见《SQL Server 2000性能调整技术指南》) • 在系统Ⅲ中,数据双向传输,Agent只需向数据库中写即可。 系统工程研究所 李长山

  45. 曹老师的问题 • 利用Q学习算法求解竞标策略与其他优化方法相比在计算速度和优化效果方法性能提高了多少?初始值对优化结果有无影响。 • 目前并无其他的智能优化优化方法应用到考虑机组约束的竞标策略研究中。其中利用到的状态转移机制是其他方法中所不具备的。 • Q的初始值对结果有一定影响,Q值过小,容易使得算法过早收敛,无法得到比较好的结果;Q值过大,会导致算法的收敛较慢。 系统工程研究所 李长山

  46. 谢谢大家!

More Related