IP属地:四川
Q-表格是一种简单的策略迭代算法,用于解决MDP问题。它通过构建一个Q-表来估计在给定状态下采取某个动作的价值。Q-表中的每个元素 Q(s, a...
马尔可夫过程 马尔可夫过程是一组具有马尔可夫性质的随机变量序列 s1 , · · · , st ,马尔可夫性质就是下一个时刻的状态 st+1 只...
RAG是什么? RAG(Retrieval Augmented Generation),检索增强生成,可以理解为知识增强外挂。是一种使大语言模型...
在docker run 时添加参数 -v