ンターネット上の情報を収集して回答を生成できるAIエージェントが次々と登場しています。新たに、OpenAIがAIエージェントのウェブ検索能力を測定できるベンチマーク「BrowseComp」を発表しました。
BrowseComp: a benchmark for browsing agents | OpenAI
https://openai.com/index/browsecomp/
ウェブ検索能力を測定するテストはOpenAIが2024年10月に発表したベンチマーク「SimpleQA」にも含まれていますが、GPT-4oなどのブラウジング機能はすでにSimpleQAで測定できる範囲を超える能力を備えているとのこと。そこで、OpenAIはインターネット上の「複雑で見つけにくい情報」を見つける能力を測定できるベンチマークツールとしてBrowseCompを開発しました。BrowseCompは「Browsing Competition(ブラウジング競争)」の略語です。