ScienceAgentBench: 研究タスクにおけるPythonコード生成ベンチマーク Mar 22, 2026 ScienceAgentBench: 研究タスクにおけるPythonコード生成ベンチマーク
BixBench:Bioinformaticsタスクに対するAIエージェントのベンチマーク Jan 21, 2026 FutureHouseとScienceMachineが共同開発したバイオインフォマティクス分野のAIエージェント評価ベンチマーク