Logo
2025
  • ToyRL: 从零实现深度强化学习算法

    ToyRL: 从零实现深度强化学习算法

    M MathewShen
    May 8, 2025
    1 min read
  • 简单聊一聊 Redis 的锁

    结合最近给 Redis 社区提的一个 PR,简单聊一聊 Redis 的锁机制

    M MathewShen
    March 23, 2025
    3 min read
  • LLM Speculative Sampling

    LLM Speculative Sampling 论文复现

    M MathewShen
    March 8, 2025
    5 min read
  • Presentia: 简单而优雅的 Presentation 模板

    介绍一个 Presentation 开源模板集合,让 Presentation 变得简单而不失优雅。

    M MathewShen
    March 1, 2025
    1 min read
  • Deepseek GRPO 中的 KL Divergence

    Deepseek GRPO 中的 KL Divergence,forward kl divergence or reverse kl divergence?

    M MathewShen
    February 23, 2025
    1 min read
  • 大语言模型与深度学习书籍推荐

    大语言模型与深度学习书籍推荐。

    M MathewShen
    February 20, 2025
    2 min read