人工智能与信息社会

Q函数Q(s,a)是指在一个给定状态s下,采取某一个动作a之后,后续的各个状态所能得到的回报的()。A、期望值B、最大值C、最小值D、总和

题目

Q函数Q(s,a)是指在一个给定状态s下,采取某一个动作a之后,后续的各个状态所能得到的回报的()。

  • A、期望值
  • B、最大值
  • C、最小值
  • D、总和
如果没有搜索结果,请直接 联系老师 获取答案。
如果没有搜索结果,请直接 联系老师 获取答案。
相似问题和答案

第1题:

使触发器呈计数状态的控制函数是()

A、J=K+1

B、D=Q

C、/S=Q,/R=Q

D、T=0


参考答案A

第2题:

下列钢板去向热处理的有()。

A.热轧状态交货的Q345B

B.热轧状态交货的Q345R

C.热轧状态交货的Q235B

D.S32304


参考答案:D

第3题:

空闲状态下TD->GSM的重选涉及哪些参数()

A.Q-Search-I

B.S_SearchRat

C.TDD_offset

D.QHyst1S


参考答案:B, D

第4题:

在期望值决策中,所说的期望值是( )。

A.一个方案在不同自然状态下所能产生的不同后果(损益等)的平均值

B.一个方案在不同自然状态下所能产生的不同后果(损益等)的最大值

C.一个方案最可能实现的值

D.一个方案真正能实现的值


正确答案:A

第5题:

设栈S的初始状态为空,队列Q的初始状态如图所示。

对栈S和队列Q进行下列两步操作: (1)删除Q中的元素,将删除的元素插入S,直至Q为空。 (2)依次将S中的元素插入Q,直至S为空。在上述两步操作后,队列Q的状态是【 】。


正确答案:a4a3a2a1
a4a3a2a1 解析:队列的删除是从队头开始的,所以在执行第一步后,S中的内容及顺序应为a1a2a3a4。但栈的出栈顺序是先进后出,所以出栈/顷序为a4a3a2a1。队列的内容及顷序也与出栈情况一致。

第6题:

下列钢板去向中间库的钢板是哪项?()

A.热轧状态交货的Q345B

B.热处理状态交货的Q345R

C.S32168

D.S32304


参考答案:A

第7题:

设P(x,y,z),Q(x;y,z),R(x,y,z)是连续函数,M是在(S)上的最大值,其中(S)是一光滑曲面,其面积记为S.证明


答:

第8题:

7位选手Z、Q、S、L、W、C和D参加击剑比赛,最后根据这7位选手的得分的点数多少来进行排名。结果,每一个选手的得分点数都不相同。比赛结果如下。

(1) Z得到的点数比C的多。

(2) C得到的点数比Q的多。

(3) Q得到的点数比l的多。

(4) W得到的点数不是最少的。

(5) D得到的点数比S的少,但是比W得到的多,也比C的多。

下面哪一项可能是7位选手从第1到第7的正确排序?

A.Z、S、D、W、Q、C、L

B.Z、S、D、C、Q、L、W

C.S、D、Z、W、C、Q、L

D.S、D、W、C、Z、Q、L


正确答案:C
解析:根据题干可以得到几个点数排名顺序是Z、C、Q、L,还有S多于 D,D多于C和W,并且W不是第7名。所以点数最少的一定是L,而点数最多的不是2就是S。仔细分析还能发现,C不是在第4名就是在第5名。W不是第7名,排除选项B;C在Q前面,排除选项A;Z在C前面,排除选项D。

第9题:

在一个单链表中,q结点是p结点的前驱结点,若在q与p之间插入结点s,则执行(29)。

A.s→link=p→link;p→link=s;

B.p→link=s;s→link=q;

C.p→link=s→link;s→link=p;

D.q→link=s;s→link=p;


正确答案:D
解析:q结点是p结点的前驱结点,若在q与p之间插入结点s,只需先将q的指针指向s,然后再将s指向p即可。

第10题:

在Q-Learning中,所谓的Q函数是指()。

  • A、状态动作函数
  • B、状态值函数
  • C、动作值函数
  • D、策略函数

正确答案:A

更多相关问题