Evaluation Taskโ
Evaluation Task๋ Datumo Eval์์ ๊ฐ์ฅ ๊ธฐ๋ณธ์ด ๋๋ ํ๊ฐ ์ํฌํ๋ก์ฐ์
๋๋ค.
Judge ํ๊ฐ ๋ชจ๋ธ์ ํ์ฉํด Target ๋ชจ๋ธ์ ์๋ต์ ๋น๊ตยทํ๊ฐํ๋ฉฐ,
Dataset ๊ธฐ๋ฐ์ผ๋ก ๋ชจ๋ธ ์ฑ๋ฅ์ ์์นํํ ์ ์์ต๋๋ค.
์ ์ฒด Flow๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- Task ์์ฑ (Create an Evaluation Task)
- Eval Set ์์ฑ ๋ฐ ํ๊ฐ ์คํ (Run Eval Set)
- ํ๊ฐ ๊ฒฐ๊ณผ ํ์ธ (Check Results)
- (Advanced) Task ํ๊ฐ ๊ด๋ฆฌ, ํ๊ฐ ๊ฒฐ๊ณผ ์์ , BEIR Leaderboard ๋ทฐ ํ์ธ
๐๏ธ 1. Create an Eval.Task
์ ๊ท evaluation Task๋ฅผ ์์ฑํฉ๋๋ค.
๐๏ธ 2. Run Eval Set
Eval Set์ ์์ฑํด ์กฐ๊ฑด์ ์ค์ ํ๊ณ ํ๊ฐ๋ฅผ ์คํํฉ๋๋ค.
๐๏ธ 3. Check Results
Dashboard์ Table View๋ก ํ๊ฐ ๊ฒฐ๊ณผ๋ฅผ ํ์ธํฉ๋๋ค.
๐๏ธ + Beir Leaderboard
Judge ํ๊ฐ์ ํจ๊ป BEIR ๋ฒค์น๋งํฌ ํ๊ฐ๋ฅผ ์ํํ๊ณ ๊ฒฐ๊ณผ๋ฅผ ๋ฆฌ๋๋ณด๋์์ ํ์ธํฉ๋๋ค.
๐๏ธ + Eval Task Management
Task ๋จ์๋ก ๊ด๋ฆฌํฉ๋๋ค. llmํ๊ฐ ์งํ ์ค ํ๊ฐ๋ฅผ ์ค์งยท์ฌ์์ํ๊ฑฐ๋ ์ด๋ฆ ๋ฐ ์ค๋ช ์ ์์ ํ ์ ์์ต๋๋ค.
๐๏ธ + Edit results manually
ํ๊ฐ ๊ฒฐ๊ณผ๋ฅผ ์์ ํ ์ ์์ต๋๋ค.
๐๏ธ + Batch Scheduling
Judgement Evaluation์ ์๋์ผ๋ก ์์ฝ ์คํํ ์ ์๋ ๊ธฐ๋ฅ์ ๋๋ค.