OpenAIがAIのウェブ検索能力を測定する高難度ベンチマーク「BrowseComp」を発表 - 大規模最適化問題、グラフ探索、機械学習やデジタルツインなど

gigazine.net

ンターネット上の情報を収集して回答を生成できるAIエージェントが次々と登場しています。新たに、OpenAIがAIエージェントのウェブ検索能力を測定できるベンチマーク「BrowseComp」を発表しました。

BrowseComp: a benchmark for browsing agents | OpenAI
https://openai.com/index/browsecomp/

ウェブ検索能力を測定するテストはOpenAIが2024年10月に発表したベンチマーク「SimpleQA」にも含まれていますが、GPT-4oなどのブラウジング機能はすでにSimpleQAで測定できる範囲を超える能力を備えているとのこと。そこで、OpenAIはインターネット上の「複雑で見つけにくい情報」を見つける能力を測定できるベンチマークツールとしてBrowseCompを開発しました。BrowseCompは「Browsing Competition(ブラウジング競争)」の略語です。