Upd:AI 算的 Rating 简直一坨。改用自己的方式计算 Rating。
众所周知我喜欢在无聊的时候拿 AI VP 比赛,于是不由得产生疑问:AI 的实际 Rating 究竟能有多少?
众所周知,AtCoder 比赛会根据你的表现产生一个 Performance 值,Perf 值仅和所有选手整体水平、参赛者的排名和是否为第一次参加比赛有关,每个人每场比赛的 Perf 在个人比赛记录中有公开显示。
对于 DeepSeekR1 的 Perf,我们假定它并不会影响参赛选手的整体水平,可定为它 Rated 排行榜上下两名的 Perf 的均值(上取整)(DeepSeekR1 的做题时间以其深度思考时间计)。
Rating 计算:众所周知 clist.by 中一道题的评分表示 Rating 为此值的选手通过此题的频率恰好约为 50\%。
因此,我们考虑统计一个时刻前 DeepSeekR1 对所有题目题的反馈(通过/未通过),找到一个最大的评分使其通过了此评分以下的超过 85\% 的题目,此分数视为其 Rating。若不存在此位置则取其上下两道题目评分的平均值。
鉴于本人较忙,更新间隔不定。测试结果将放在下面,篇幅原因不会放出过程,有特殊情况将会注明,查看 AI 的提交记录可以在对应比赛中搜索 AtCoder 用户 chenxi2009 的提交记录,AI 代码一般会有注明。
测试都是赛后进行的,不鼓励赛时测试 AI 或使用 AI 作弊的行为。
ABC394
题目通过英文 MarkDown 形式给出,连续失败提交同一道题三次将会强制跳至下一题。DeepSeekR1 默认选择使用 Python。最多在一道题进行十次提交。
A:通过。19s。
B:通过。45s。
C:通过。5min25s。
D:通过。7min55s。
E:(-3)
F:(-2)通过。60min21s。
G:(-3)
总耗时 99min30s,过题 ABCDF,得分 1500,罚时 70min21s,Rated 榜上 794 名,表现分为 1576。
Rating 1357。
ABC395
人为操纵特性及语言同上。
A:通过。23s。
B:通过。3min48s。
C:通过。6min41s。
D:(-2)通过。38min43s。
E:通过。43min1s。
F:(-1)通过。52min50s。
G:(-10)
总耗时 80min9s,过题 ABCDEF,得分 1875,罚时 67min50s,Rated 榜上 379 名,表现分为 178。
Rating 1962。
ABC396
一切同上。
A:通过。52s。
B:通过。4min18s。
C:通过。11min11s。
D:通过。14min9s。
E:(-1)通过。32min35s。
F:(-5)
G:通过。72min27s。
至此用时 93min16s,过题 ABCDEG,得分 2050,罚时 77min27s,Rated 榜上 126 名,表现分为 2142。
Rating 1454。
ARC194(Div.2)
大部分设置同上,一道题可以连续作答 4 次。向 DeepSeekR1 明确提出了可以选择 C++20 和 Python 语言,DeepSeek 明确选择了 Python 作答。
A:(-4)
B:(-4)
C:(-3)
D:
E:
共用时 116min6s,无过题,得分 0,罚时 0,Rated 榜上 834 名,表现分 596。
Rating 1057。
ABC397
同 ABC396。
A:通过,31s。
B:通过,5min17s。
C:通过,7min58s。
D:通过,12min46s。
E:(-5)
F:(-3)
G:(-3)
共用时 96min8s。过题 ABCD,得分 1125,罚时 12min46s,Rated 榜上 1274 名,表现分为 1376。
Rating 1057。
ABC398
同 ABC396。
A:通过,1min10s。
B:通过,6min17s。
C:通过,8min56s。
D:通过,19min51s。
E:通过,24min38s。
F:通过,33min43s。
G:(-6)
共用时 81min44s(一直重复给出两种错解,认为没有继续的必要),过题 ABCDEF,得分 2000,罚时 33min43s,Rated 榜上 20 名,表现分为 2400。
Rating 1357。
ARC197(Div.2)
未总结。