（更新至 ABC398）【长期计划】DeepSeekR1 VP AtCoder 计划：AI 可以打出多少 Rating？

chenxi1 · 2025 年5 月 6 日 13:11

Upd：AI 算的 Rating 简直一坨。改用自己的方式计算 Rating。

众所周知我喜欢在无聊的时候拿 AI VP 比赛，于是不由得产生疑问：AI 的实际 Rating 究竟能有多少？

众所周知，AtCoder 比赛会根据你的表现产生一个 Performance 值，Perf 值仅和所有选手整体水平、参赛者的排名和是否为第一次参加比赛有关，每个人每场比赛的 Perf 在个人比赛记录中有公开显示。

对于 DeepSeekR1 的 Perf，我们假定它并不会影响参赛选手的整体水平，可定为它 Rated 排行榜上下两名的 Perf 的均值（上取整）（DeepSeekR1 的做题时间以其深度思考时间计）。

Rating 计算：众所周知 clist.by 中一道题的评分表示 Rating 为此值的选手通过此题的频率恰好约为 50\%。

因此，我们考虑统计一个时刻前 DeepSeekR1 对所有题目题的反馈（通过/未通过），找到一个最大的评分使其通过了此评分以下的超过 85\% 的题目，此分数视为其 Rating。若不存在此位置则取其上下两道题目评分的平均值。

鉴于本人较忙，更新间隔不定。测试结果将放在下面，篇幅原因不会放出过程，有特殊情况将会注明，查看 AI 的提交记录可以在对应比赛中搜索 AtCoder 用户 chenxi2009 的提交记录，AI 代码一般会有注明。

测试都是赛后进行的，不鼓励赛时测试 AI 或使用 AI 作弊的行为。

题目通过英文 MarkDown 形式给出，连续失败提交同一道题三次将会强制跳至下一题。DeepSeekR1 默认选择使用 Python。最多在一道题进行十次提交。

A：通过。19s。
B：通过。45s。
C：通过。5min25s。
D：通过。7min55s。
E：（-3）
F：（-2）通过。60min21s。
G：（-3）

总耗时 99min30s，过题 ABCDF，得分 1500，罚时 70min21s，Rated 榜上 794 名，表现分为 1576。

Rating 1357。

人为操纵特性及语言同上。

A：通过。23s。
B：通过。3min48s。
C：通过。6min41s。
D：（-2）通过。38min43s。
E：通过。43min1s。
F：（-1）通过。52min50s。
G：（-10）

总耗时 80min9s，过题 ABCDEF，得分 1875，罚时 67min50s，Rated 榜上 379 名，表现分为 178。

Rating 1962。

一切同上。

A：通过。52s。
B：通过。4min18s。
C：通过。11min11s。
D：通过。14min9s。
E：（-1）通过。32min35s。
F：（-5）
G：通过。72min27s。

至此用时 93min16s，过题 ABCDEG，得分 2050，罚时 77min27s，Rated 榜上 126 名，表现分为 2142。

Rating 1454。

大部分设置同上，一道题可以连续作答 4 次。向 DeepSeekR1 明确提出了可以选择 C++20 和 Python 语言，DeepSeek 明确选择了 Python 作答。

A：（-4）
B：（-4）
C：（-3）
D：
E：

共用时 116min6s，无过题，得分 0，罚时 0，Rated 榜上 834 名，表现分 596。

Rating 1057。

同 ABC396。

A：通过，31s。
B：通过，5min17s。
C：通过，7min58s。
D：通过，12min46s。
E：（-5）
F：（-3）
G：（-3）

共用时 96min8s。过题 ABCD，得分 1125，罚时 12min46s，Rated 榜上 1274 名，表现分为 1376。

Rating 1057。

同 ABC396。

A：通过，1min10s。
B：通过，6min17s。
C：通过，8min56s。
D：通过，19min51s。
E：通过，24min38s。
F：通过，33min43s。
G：（-6）

共用时 81min44s（一直重复给出两种错解，认为没有继续的必要），过题 ABCDEF，得分 2000，罚时 33min43s，Rated 榜上 20 名，表现分为 2400。

Rating 1357。

未总结。

我命由我不由天 · 2025 年5 月 6 日 15:30

太强啦！

苍穹一粟 · 2025 年5 月 7 日 09:13

sto %%%

linan04053 · 2025 年5 月 7 日 12:21

强大%%%