与以往主要关注模型是否能记住信息或遵循固定步骤完成任务的标准评估方法不同,GeneBench-Pro 侧重于在实际科研场景下的应用能力。该基准测试旨在让模型在面对信息模糊、不完整甚至夹杂干扰的数据时,能够进行有效的判断和分析,最终得出结论。

GeneBench-Pro 涵盖了基因组学、定量生物学及转化医学等多个领域,共计包含 129 道题目。这些题目分布在 10 个主要领域和 21 个子领域内,涉及统计遗传学、群体遗传学、功能基因组学、蛋白质组学等多个方向。每道题目都会提供给模型一个接近真实科研环境的数据集,附带简要的实验背景说明和一个与后续决策相关的目标问题。模型需要自主完成数据探索、选择分析方法,并在分析过程中不断调整策略,最终给出答案。

为规避传统长流程基准测试中常见的评分偏差,OpenAI 在设计 GeneBench-Pro 时采用了合成数据作为核心。这是因为如果直接使用历史真实数据出题,可能存在多条有效的分析路径,导致模型即使采用了错误的方法也可能偶然获得正确答案。

通过使用合成数据,OpenAI 能够完全掌控底层因果结构和数据生成过程,从而更精确地评估模型是否真正理解了问题,而非仅仅走了捷径。

目前,OpenAI 已在 Hugging Face 上公开了 10 道具有代表性的 GeneBench-Pro 示例题目,并提供了交互式界面供外部研究人员体验。未来,将有 50 道题目开放给 Artificial Analysis 进行第三方独立评估,以检验不同模型在这一基准测试中的实际表现。