Stable Policy Optimization Via Off

Stable Policy Optimization via Off-Policy Divergence Regularization

Stable Policy Optimization via Off

Does your PPO agent fail to learn?

One hyper-parameter could improve the

One Step Is Enough: Dispersive MeanFlow Policy Optimization (DMPO)

DMPO: Breaking the Speed-Performance Trade-

LLMs Can Learn to Reason Via Off-Policy RL (Feb 2026)

Title: LLMs Can Learn to Reason

OAPL: Efficient LLM Reasoning via Off-Policy RL

In this AI Research Roundup episode, Alex discusses the paper: 'LLMs Can Learn to Reason

VESPO: Stabilizing Off-Policy RL for LLMs

In this AI Research Roundup episode, Alex discusses the paper: 'VESPO: Variational Sequence-Level Soft

LPO: New Listwise Optimization for LLM Reasoning

In this AI Research Roundup episode, Alex discusses the paper: 'Listwise

Soft Adaptive Policy Optimization (Nov 2025)

Title: Soft Adaptive

Proximal Policy Optimization | Lecture 82 (Part 3) | Applied Deep Learning

Proximal

CVPR26: Neighbor GRPO Contrastive ODE Policy Optimization Aligns Flow Models

Off-policy Policy Optimization

Dale Schuurmans (Google Brain & University of Alberta) https://simons.berkeley.edu/talks/tba-84 Emerging Challenges in Deep ...

Flash-GRPO: Efficient Alignment for Video Diffusion via One-Step Policy Optimization (May 2026)

Title: Flash-GRPO: Efficient Alignment for Video Diffusion

MOPO: Model-Based Offline Policy Optimization

Tengyu Ma (Stanford https://simons.berkeley.edu/talks/tbd-206 Deep Reinforcement Learning.

Finding the adaptation Threshold: Stability vs Security Trade-off Test

The experiment uses the SME Client as the traffic source, the Edge Gateway as the adaptive firewall, and the IoT VM as the ...

Unifying Group-Relative and Self-Distillation Policy Optimization via Sample Routing (Apr 2026)

Title: Unifying Group-Relative and Self-Distillation

Soft Adaptive Policy Optimization

Soft Adaptive

Teaching Robots to Walk with Proximal Policy Optimization (PPO) | Reinforcement Learning for Robots

Among the successes of modern bipedal robotics, deep reinforcement learning has been conspicuously absent. That is, until a ...

FlashSAC: Fast and Stable Off-Policy Reinforcement Learning for High-Dimensional Robot Control (Apr

Title: FlashSAC: Fast and