机读格式显示(MARC)

000 01281nam 2200325 450

001 0000718039

005 20200907091600.0

010 __ |a 978-7-302-53829-5 |d CNY99.00

099 __ |a CAL 012020041735

100 __ |a 20200527d2020 ekmy0chiy50 ea

101 0_ |a chi

102 __ |a CN |b 110000

105 __ |a afk a 000yy

106 __ |a r

200 1_ |a 强化学习 |A qiang hua xue xi |d = Reinforcement learning |f 邹伟, 鬲玲, 刘昱杓著 |z eng

210 __ |a 北京 |c 清华大学出版社 |d 2020

215 __ |a 17, 380页, [8] 页图版 |c 图 (部分彩图) |d 24cm

225 2_ |a 人工智能科学与技术丛书 |A ren gong zhi neng ke xue yu ji shu cong shu

320 __ |a 有书目 (第379-380页)

330 __ |a 本书共14章，大致分为4个部分：第1部分介绍强化学习的基础知识，包括强化学习的定义，发展历程，以及要解决的问题。第2部分包括动态规划方法，蒙特卡罗方法，时间差分方法。第3部分通过集成多个基本算法，或者将值函数、策略做函数近似，第4部分使用强化学习解决两类博弈问题：完美信息博弈和不完美信息博弈。

410 _0 |1 2001 |a 人工智能科学与技术丛书

510 1_ |a Reinforcement learning |z eng

606 0_ |a 机器学习 |A ji qi xue xi

690 __ |a TP181 |v 5

701 _0 |a 邹伟 |A zou wei |4 著

701 _0 |a 鬲玲 |A ge ling |4 著

701 _0 |a 刘昱杓 |A liu yu biao |4 著

801 _0 |a CN |b NMU |c 20200527

905 __ |a SCNU |f TP181/2725

920 __ |a 242430 |z 1