더 나은 AI 벤치마크 구축: 충분한 평가자는 몇 명인가?