Update KOREAN_README.md
Browse files- KOREAN_README.md +3 -3
KOREAN_README.md
CHANGED
|
@@ -79,15 +79,15 @@ KRX κΈμ΅ μΈμ΄ λͺ¨λΈ κ²½μ§λνλ λν μΈμ΄ λͺ¨λΈ(LLM)μ νκ΅ κΈ
|
|
| 79 |
### λ°μ΄ν°μ
μμ§
|
| 80 |
|
| 81 |
λ€μκ³Ό κ°μ κ³Όμ μ ν΅ν΄ κ³ νμ§ Instruction μνλ‘ μ΄λ£¨μ΄μ§ μ’
ν©μ μΈ λͺ¨λΈ νμ΅ λ°μ΄ν°μ
μ ꡬμΆνμ΅λλ€:
|
| 82 |
-
- **κ²½μ§λν**: κ²½μ§λν μ€ HuggingFaceμ μ μΆλ 200,000κ° μ΄μμ λ°μ΄ν° μ€ MinHash μκ³ λ¦¬μ¦κ³Ό μ κ·μ νν°λ§μ ν΅ν΄ μ μ€νκ² μ λ³λ
|
| 83 |
-
- **μΆλ‘ μλ΅**: DeepSeek-R1 λͺ¨λΈμ μ¬μ©νμ¬ μμ±λ
|
| 84 |
- **κ²μ¦**: GPT-4oλ₯Ό LLM-as-a-Judgeλ‘ νμ©ν κ²μ¦ νλ‘μΈμ€ λ° μλ νμ§ κ²μ¬λ₯Ό ν΅ν΄ λ°μ΄ν°μ 무결μ±κ³Ό μ νμ±μ κ°ννμμ΅λλ€.
|
| 85 |
|
| 86 |
### νμ΅ λ°©λ²
|
| 87 |
|
| 88 |
β©ON λͺ¨λΈ νμ΅μ μν΄ λ€μκ³Ό κ°μ 2λ¨κ³ νμ΅μ μ§ννμμ΅λλ€:
|
| 89 |
- SFT: μ΄ λ¨κ³λ κΈμ΅ μΆλ‘ μμ
κ³Ό κ΄λ ¨λ λͺ¨λΈμ μ΄κΈ° νλμ μ‘°μ νλ λ° μ΄μ μ λ§μ·μΌλ©°, DeepSeek-R1 λͺ¨λΈλ‘ μμ±ν μμΈν μλ΅κ³Ό μΈμ¬νκ² μ μ λ ν둬ννΈλ₯Ό μ¬μ©νμ΅λλ€. λ°μ΄ν°μ
μ νκ΅μ΄μ μμ΄μμ μΈμ΄μ μΌκ΄μ±μ ν보νκΈ° μν΄ μ² μ ν κ²ν λ Prompt-Response μμΌλ‘ ꡬμ±νμμ΅λλ€.
|
| 90 |
-
- DPO: SFT μ§ν ν, λͺ¨λΈμ κ³Όλν μκ° κ³Όμ λλ μΌλΆ μ§λ¬Έμ λν μλͺ»λ ν΄μκ³Ό κ°μ μμΉ μλ νλμ μ€μ΄κΈ° μν΄ DPOλ₯Ό νμ©νμμ΅λλ€. μ νΈλ λ°μ΄ν°λ₯Ό νμ©νμ¬ λͺ¨λΈμ μΆλ ₯κ³Ό DeepSeek-R1μ μΆλ ₯μ λΉκ΅ν¨μΌλ‘μ¨
|
| 91 |
|
| 92 |
### λͺ¨λΈ μ¬μ
|
| 93 |
|
|
|
|
| 79 |
### λ°μ΄ν°μ
μμ§
|
| 80 |
|
| 81 |
λ€μκ³Ό κ°μ κ³Όμ μ ν΅ν΄ κ³ νμ§ Instruction μνλ‘ μ΄λ£¨μ΄μ§ μ’
ν©μ μΈ λͺ¨λΈ νμ΅ λ°μ΄ν°μ
μ ꡬμΆνμ΅λλ€:
|
| 82 |
+
- **κ²½μ§λν**: κ²½μ§λν μ€ HuggingFaceμ μ μΆλ 200,000κ° μ΄μμ λ°μ΄ν° μ€ MinHash μκ³ λ¦¬μ¦κ³Ό μ κ·μ νν°λ§μ ν΅ν΄ μ μ€νκ² μ λ³λ 80,000κ°μ μ§μν λ°μ΄ν°μ
μ ꡬμΆνμμ΅λλ€.
|
| 83 |
+
- **μΆλ‘ μλ΅**: DeepSeek-R1 λͺ¨λΈμ μ¬μ©νμ¬ μμ±λ μλ΅μ λ¬Όλ‘ , 곡κ°μ μΌλ‘ μ΄μ© κ°λ₯ν μμ΄μ νκ΅μ΄ μ¨λΌμΈ μλ£μμ μμ§ν Prompt-Response μμ ν΅ν΄ 보μνμμ΅λλ€.
|
| 84 |
- **κ²μ¦**: GPT-4oλ₯Ό LLM-as-a-Judgeλ‘ νμ©ν κ²μ¦ νλ‘μΈμ€ λ° μλ νμ§ κ²μ¬λ₯Ό ν΅ν΄ λ°μ΄ν°μ 무결μ±κ³Ό μ νμ±μ κ°ννμμ΅λλ€.
|
| 85 |
|
| 86 |
### νμ΅ λ°©λ²
|
| 87 |
|
| 88 |
β©ON λͺ¨λΈ νμ΅μ μν΄ λ€μκ³Ό κ°μ 2λ¨κ³ νμ΅μ μ§ννμμ΅λλ€:
|
| 89 |
- SFT: μ΄ λ¨κ³λ κΈμ΅ μΆλ‘ μμ
κ³Ό κ΄λ ¨λ λͺ¨λΈμ μ΄κΈ° νλμ μ‘°μ νλ λ° μ΄μ μ λ§μ·μΌλ©°, DeepSeek-R1 λͺ¨λΈλ‘ μμ±ν μμΈν μλ΅κ³Ό μΈμ¬νκ² μ μ λ ν둬ννΈλ₯Ό μ¬μ©νμ΅λλ€. λ°μ΄ν°μ
μ νκ΅μ΄μ μμ΄μμ μΈμ΄μ μΌκ΄μ±μ ν보νκΈ° μν΄ μ² μ ν κ²ν λ Prompt-Response μμΌλ‘ ꡬμ±νμμ΅λλ€.
|
| 90 |
+
- DPO: SFT μ§ν ν, λͺ¨λΈμ κ³Όλν μκ° κ³Όμ λλ μΌλΆ μ§λ¬Έμ λν μλͺ»λ ν΄μκ³Ό κ°μ μμΉ μλ νλμ μ€μ΄κΈ° μν΄ DPOλ₯Ό νμ©νμμ΅λλ€. μ νΈλ λ°μ΄ν°λ₯Ό νμ©νμ¬ λͺ¨λΈμ μΆλ ₯κ³Ό DeepSeek-R1μ μΆλ ₯μ λΉκ΅ν¨μΌλ‘μ¨ λͺ¨λΈ μλ΅μ ν¨κ³Όμ μΌλ‘ κ°μ νμμ΅λλ€.
|
| 91 |
|
| 92 |
### λͺ¨λΈ μ¬μ
|
| 93 |
|