一种基于强化学习的废旧手机目标拆解序列优化方法
理解自己的学习风格,优化学习方法 #生活技巧# #学习技巧# #学习动机激发#
预览加载中,请您耐心等待几秒...
如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115048859A(43)申请公布日2022.09.13(21)申请号202210577807.6(22)申请日2022.05.25(71)申请人青岛科技大学地址266000山东省青岛市崂山区松岭路99号(72)发明人李林陈泽鹏刘洪果李华清尹凤福(74)专利代理机构青岛中天汇智知识产权代理有限公司37241专利代理师许莉(51)Int.Cl.G06F30/27(2020.01)G06K9/62(2022.01)G06F17/16(2006.01)G06F111/04(2020.01)权利要求书2页说明书9页附图4页(54)发明名称一种基于强化学习的废旧手机目标拆解序列优化方法(57)摘要本发明公开了一种基于强化学习的废旧手机目标拆解序列优化方法,首先分析待拆解手机零件之间的约束关系,建立四元组混合图,在此基础上搭建手机目标拆解的环境,确定当前的手机拆解状态以及后续可行的拆解动作,然后将废旧手机目标拆解序列问题用马尔科夫决策过程形式化,在此基础上对奖惩函数赋值并建立状态‑动作‑奖励值矩阵,利用状态‑动作‑奖励值矩阵对Q‑learning算法中的Q函数进行训练,最终利用训练后的Q函数和形式化后的拆解目标函数进行搜寻,得到拆解至目标零件的最优拆解序列。本发明以四元组混合图为基础搭建了更容易编译的强化学习环境,并且将无模型的强化学习算法用于废旧手机目标拆解序列问题,降低了模型构建的困难。CN115048859ACN115048859A权利要求书1/2页1.一种基于强化学习的废旧手机目标拆解序列优化方法,其特征在于包含以下步骤:步骤1、分析待拆解手机零件之间的约束关系,建立四元组混合图;步骤2、利用步骤1建立的四元组混合图搭建手机目标拆解的环境,确定当前的手机拆解状态以及后续可行的拆解动作;步骤3、将废旧手机目标拆解序列问题用马尔科夫决策过程形式化,具体包括:拆解状态空间、拆解动作空间、奖惩函数和拆解目标函数;步骤4、设定待拆解手机的目标零件,并根据步骤3形式化后的拆解状态空间、拆解动作空间对奖惩函数赋值,建立状态‑动作‑奖励值矩阵;步骤5、利用步骤4建立的状态‑动作‑奖励值矩阵对Q‑learning算法中的Q函数进行训练;步骤6、利用步骤5训练后的Q函数和步骤3形式化后的拆解目标函数进行搜寻,得到拆解至目标零件的最优拆解序列。2.根据权利要求1所述的一种基于强化学习的废旧手机目标拆解序列优化方法,其特征在于,步骤2所述的基于四元组混合图搭建手机拆解的强化学习环境,具体如下:将手机拆解四元组混合图转化为手机拆解的强化学习环境,将待拆解手机的目标零件问题设定为闯关游戏问题(强化学习环境),利用建立的四元组混合图中的约束关系表达强化学习环境的约束关系,即将手机拆解混合图中待拆解手机内部零件的约束关系转化为游戏关卡之间的约束,当零件A对零件B为强物理约束关系时,需要先通过关卡A后才能开启关卡B;当零件A对零件B不相互连接但存在优先关系时,需要先通过关卡A后才能开启关卡B;当零件A对零件B为连接关系时,则关卡A与关卡B之间不存在先后关系;将待拆解手机的目标零件设为目标关卡,要想得到最大的奖励,必须到达设定的目标关卡。3.根据权利要求1所述的一种基于强化学习的废旧手机目标拆解序列优化方法,其特征在于,步骤3所述的将废旧手机目标拆解序列问题用马尔科夫决策过程形式化表示,具体包括:设置拆解状态空间S:S=[S0,S1,S2,S3,S4…Sn](1)其中Sn,n=0,1,2…表示拆解至零件n时,待拆解手机的状态;设置拆解动作空间D:D=[D0,D1,D2,D3,D4…Dn](2)其中Dn,n=0,1,2…表示进行拆解零件n的动作;设置奖惩函数R:R=[q,w,e](3)其中q表示零件存在约束无法拆解,w表示零件可以拆解但未拆解至目标零件,e表示零件可以拆解并拆解至目标零件。4.根据权利要求1所述的一种基于强化学习的废旧手机目标拆解序列优化方法,其特征在于,步骤4所述的奖惩函数R赋值规则,具体包括:2CN115048859A权利要求书2/2页当零件存在约束时,该状态下无法拆解该零件,若强行拆解则会给予一个值为负数的惩罚,赋值为‑1;当未拆解至目标零件时,拆解任意零件不会给予奖励或者惩罚,赋值为0;当零件拆解至目标零件时,该状态给予一个值为正数的奖励,赋值为100。3CN115048859A说明书1/9页一种基于强化学习的废旧手机目标拆解序列优化方法技术领域[0001]本发明涉及废旧电子产品拆解工艺领域,具体涉及一种基于强化学习的废旧手机目标拆解序列优化方法。背景技术[0002]随着科学技术的发展和人们生活水平提高,智能手机更新换代速度逐渐加快,产生了大量急需妥善处理的废旧手机。目前手机拆解
网址:一种基于强化学习的废旧手机目标拆解序列优化方法 https://www.yuejiaxmz.com/news/view/574190
相关内容
10种高效学习方法,拆解量化目标,提高工作效率记者直击废旧家电拆解 10分钟完美拆解一台废旧洗衣机
超亿台废旧家电进入报废期,拆解产业化正当其时
【ML4CO论文精读】基于深度强化学习的组合优化问题研究进展(李凯文, 2020)
优化学习方法
一文了解强化学习
强化学习系列
废弃电器电子产品回收利用提质 推进智能化与精细化拆解
强化学习中的策略迭代算法优化研究
废弃家电拆解 拆出“一身宝”