Source: CSDN Blog

CSDN Blog pytorch的reinforce算法官方文档

http://pytorch.org/docs/0.3.0/distributions.htmlprobs = policy_network(state) m = Categorical(probs) action = m.sample() # 抽样一个action next_state, reward = env.step(action) # 得到一个reward loss = -m.log_prob(action) * reward loss.backward()作者：guotong1988 发表于2018/1/5 11:16:05 原文链接阅读：0 评论：0 查看评论

Read full article »

CSDN's Competitors | CSDN's News | CSDN's Financials

Followers on Owler

5

Est. Annual Revenue

$25-100M

Est. Employees

100-250

CEO

Update CEO

CEO Approval Rating

- -/100

CSDN is the community website and services platform.