Charm2Hwang commited on
Commit
57527fb
Β·
verified Β·
1 Parent(s): e2c1f4a

Update KOREAN_README.md

Browse files
Files changed (1) hide show
  1. KOREAN_README.md +3 -3
KOREAN_README.md CHANGED
@@ -79,15 +79,15 @@ KRX 금육 μ–Έμ–΄ λͺ¨λΈ κ²½μ§„λŒ€νšŒλŠ” λŒ€ν˜• μ–Έμ–΄ λͺ¨λΈ(LLM)의 ν•œκ΅­ 금
79
  ### 데이터셋 μˆ˜μ§‘
80
 
81
  λ‹€μŒκ³Ό 같은 과정을 톡해 κ³ ν’ˆμ§ˆ Instruction μƒ˜ν”Œλ‘œ 이루어진 쒅합적인 λͺ¨λΈ ν•™μŠ΅ 데이터셋을 κ΅¬μΆ•ν–ˆμŠ΅λ‹ˆλ‹€:
82
- - **κ²½μ§„λŒ€νšŒ**: κ²½μ§„λŒ€νšŒ 쀑 HuggingFace에 제좜된 200,000개 μ΄μƒμ˜ 데이터 쀑 MinHash μ•Œκ³ λ¦¬μ¦˜κ³Ό μ •κ·œμ‹ 필터링을 톡해 μ‹ μ€‘ν•˜κ²Œ μ„ λ³„λœ 곡개된 80,000개의 μ§€μ‹œν˜• 데이터셋을 κ΅¬μΆ•ν•˜μ˜€μŠ΅λ‹ˆλ‹€.
83
- - **μΆ”λ‘  응닡**: DeepSeek-R1 λͺ¨λΈμ„ μ‚¬μš©ν•˜μ—¬ μƒμ„±λœ 응닡과 ν•¨κ»˜ 곡개적으둜 이용 κ°€λŠ₯ν•œ μ˜μ–΄ 및 ν•œκ΅­μ–΄ 온라인 μžλ£Œμ—μ„œ μˆ˜μ§‘ν•œ Prompt-Response 쌍으둜 λ³΄μ™„ν•˜μ˜€μŠ΅λ‹ˆλ‹€.
84
  - **검증**: GPT-4oλ₯Ό LLM-as-a-Judge둜 ν™œμš©ν•œ 검증 ν”„λ‘œμ„ΈμŠ€ 및 μžλ™ ν’ˆμ§ˆ 검사λ₯Ό 톡해 λ°μ΄ν„°μ˜ 무결성과 정확성을 κ°•ν™”ν•˜μ˜€μŠ΅λ‹ˆλ‹€.
85
 
86
  ### ν•™μŠ΅ 방법
87
 
88
  β‚©ON λͺ¨λΈ ν•™μŠ΅μ„ μœ„ν•΄ λ‹€μŒκ³Ό 같은 2단계 ν•™μŠ΅μ„ μ§„ν–‰ν•˜μ˜€μŠ΅λ‹ˆλ‹€:
89
  - SFT: 이 λ‹¨κ³„λŠ” 금육 μΆ”λ‘  μž‘μ—…κ³Ό κ΄€λ ¨λœ λͺ¨λΈμ˜ 초기 행동을 μ‘°μ •ν•˜λŠ” 데 μ΄ˆμ μ„ λ§žμ·„μœΌλ©°, DeepSeek-R1 λͺ¨λΈλ‘œ μƒμ„±ν•œ μƒμ„Έν•œ 응닡과 μ„Έμ‹¬ν•˜κ²Œ μ„ μ •λœ ν”„λ‘¬ν”„νŠΈλ₯Ό μ‚¬μš©ν–ˆμŠ΅λ‹ˆλ‹€. 데이터셋은 ν•œκ΅­μ–΄μ™€ μ˜μ–΄μ—μ„œ 언어적 일관성을 ν™•λ³΄ν•˜κΈ° μœ„ν•΄ μ² μ €νžˆ κ²€ν† λœ Prompt-Response 쌍으둜 κ΅¬μ„±ν•˜μ˜€μŠ΅λ‹ˆλ‹€.
90
- - DPO: SFT μ§„ν–‰ ν›„, λͺ¨λΈμ˜ κ³Όλ„ν•œ 생각 κ³Όμ • λ˜λŠ” 일뢀 μ§ˆλ¬Έμ— λŒ€ν•œ 잘λͺ»λœ 해석과 같은 μ›μΉ˜ μ•ŠλŠ” 행동을 쀄이기 μœ„ν•΄ DPOλ₯Ό ν™œμš©ν•˜μ˜€μŠ΅λ‹ˆλ‹€. μ„ ν˜Έλ„ 데이터λ₯Ό ν™œμš©ν•˜μ—¬ λͺ¨λΈμ˜ 좜λ ₯κ³Ό DeepSeek-R1의 좜λ ₯을 λΉ„κ΅ν•¨μœΌλ‘œμ¨ 효과적으둜 λͺ¨λΈ 응닡을 κ°œμ„ ν•˜μ˜€μŠ΅λ‹ˆλ‹€.
91
 
92
  ### λͺ¨λΈ 사양
93
 
 
79
  ### 데이터셋 μˆ˜μ§‘
80
 
81
  λ‹€μŒκ³Ό 같은 과정을 톡해 κ³ ν’ˆμ§ˆ Instruction μƒ˜ν”Œλ‘œ 이루어진 쒅합적인 λͺ¨λΈ ν•™μŠ΅ 데이터셋을 κ΅¬μΆ•ν–ˆμŠ΅λ‹ˆλ‹€:
82
+ - **κ²½μ§„λŒ€νšŒ**: κ²½μ§„λŒ€νšŒ 쀑 HuggingFace에 제좜된 200,000개 μ΄μƒμ˜ 데이터 쀑 MinHash μ•Œκ³ λ¦¬μ¦˜κ³Ό μ •κ·œμ‹ 필터링을 톡해 μ‹ μ€‘ν•˜κ²Œ μ„ λ³„λœ 80,000개의 μ§€μ‹œν˜• 데이터셋을 κ΅¬μΆ•ν•˜μ˜€μŠ΅λ‹ˆλ‹€.
83
+ - **μΆ”λ‘  응닡**: DeepSeek-R1 λͺ¨λΈμ„ μ‚¬μš©ν•˜μ—¬ μƒμ„±λœ 응닡은 λ¬Όλ‘ , 곡개적으둜 이용 κ°€λŠ₯ν•œ μ˜μ–΄μ™€ ν•œκ΅­μ–΄ 온라인 μžλ£Œμ—μ„œ μˆ˜μ§‘ν•œ Prompt-Response μŒμ„ 톡해 λ³΄μ™„ν•˜μ˜€μŠ΅λ‹ˆλ‹€.
84
  - **검증**: GPT-4oλ₯Ό LLM-as-a-Judge둜 ν™œμš©ν•œ 검증 ν”„λ‘œμ„ΈμŠ€ 및 μžλ™ ν’ˆμ§ˆ 검사λ₯Ό 톡해 λ°μ΄ν„°μ˜ 무결성과 정확성을 κ°•ν™”ν•˜μ˜€μŠ΅λ‹ˆλ‹€.
85
 
86
  ### ν•™μŠ΅ 방법
87
 
88
  β‚©ON λͺ¨λΈ ν•™μŠ΅μ„ μœ„ν•΄ λ‹€μŒκ³Ό 같은 2단계 ν•™μŠ΅μ„ μ§„ν–‰ν•˜μ˜€μŠ΅λ‹ˆλ‹€:
89
  - SFT: 이 λ‹¨κ³„λŠ” 금육 μΆ”λ‘  μž‘μ—…κ³Ό κ΄€λ ¨λœ λͺ¨λΈμ˜ 초기 행동을 μ‘°μ •ν•˜λŠ” 데 μ΄ˆμ μ„ λ§žμ·„μœΌλ©°, DeepSeek-R1 λͺ¨λΈλ‘œ μƒμ„±ν•œ μƒμ„Έν•œ 응닡과 μ„Έμ‹¬ν•˜κ²Œ μ„ μ •λœ ν”„λ‘¬ν”„νŠΈλ₯Ό μ‚¬μš©ν–ˆμŠ΅λ‹ˆλ‹€. 데이터셋은 ν•œκ΅­μ–΄μ™€ μ˜μ–΄μ—μ„œ 언어적 일관성을 ν™•λ³΄ν•˜κΈ° μœ„ν•΄ μ² μ €νžˆ κ²€ν† λœ Prompt-Response 쌍으둜 κ΅¬μ„±ν•˜μ˜€μŠ΅λ‹ˆλ‹€.
90
+ - DPO: SFT μ§„ν–‰ ν›„, λͺ¨λΈμ˜ κ³Όλ„ν•œ 생각 κ³Όμ • λ˜λŠ” 일뢀 μ§ˆλ¬Έμ— λŒ€ν•œ 잘λͺ»λœ 해석과 같은 μ›μΉ˜ μ•ŠλŠ” 행동을 쀄이기 μœ„ν•΄ DPOλ₯Ό ν™œμš©ν•˜μ˜€μŠ΅λ‹ˆλ‹€. μ„ ν˜Έλ„ 데이터λ₯Ό ν™œμš©ν•˜μ—¬ λͺ¨λΈμ˜ 좜λ ₯κ³Ό DeepSeek-R1의 좜λ ₯을 λΉ„κ΅ν•¨μœΌλ‘œμ¨ λͺ¨λΈ 응닡을 효과적으둜 κ°œμ„ ν•˜μ˜€μŠ΅λ‹ˆλ‹€.
91
 
92
  ### λͺ¨λΈ 사양
93