KRX-Data
/

WON-Reasoning

Safetensors

qwen2

Model card Files Files and versions

xet

Community

Charm2Hwang commited on Apr 11

Commit

57527fb

verified ·

1 Parent(s): e2c1f4a

Update KOREAN_README.md

Browse files

Files changed (1) hide show

KOREAN_README.md +3 -3

KOREAN_README.md CHANGED Viewed

@@ -79,15 +79,15 @@ KRX 금융 언어 모델 경진대회는 대형 언어 모델(LLM)의 한국 금
 ### 데이터셋 수집
 다음과 같은 과정을 통해 고품질 Instruction 샘플로 이루어진 종합적인 모델 학습 데이터셋을 구축했습니다:
-- **경진대회**: 경진대회 중 HuggingFace에 제출된 200,000개 이상의 데이터 중 MinHash 알고리즘과 정규식 필터링을 통해 신중하게 선별된 공개된 80,000개의 지시형 데이터셋을 구축하였습니다.
-- **추론 응답**: DeepSeek-R1 모델을 사용하여 생성된 응답과 함께 공개적으로 이용 가능한 영어 및 한국어 온라인 자료에서 수집한 Prompt-Response 쌍으로 보완하였습니다.
 - **검증**: GPT-4o를 LLM-as-a-Judge로 활용한 검증 프로세스 및 자동 품질 검사를 통해 데이터의 무결성과 정확성을 강화하였습니다.
 ### 학습 방법
 ₩ON 모델 학습을 위해 다음과 같은 2단계 학습을 진행하였습니다:
 - SFT: 이 단계는 금융 추론 작업과 관련된 모델의 초기 행동을 조정하는 데 초점을 맞췄으며, DeepSeek-R1 모델로 생성한 상세한 응답과 세심하게 선정된 프롬프트를 사용했습니다. 데이터셋은 한국어와 영어에서 언어적 일관성을 확보하기 위해 철저히 검토된 Prompt-Response 쌍으로 구성하였습니다.
-- DPO: SFT 진행 후, 모델의 과도한 생각 과정 또는 일부 질문에 대한 잘못된 해석과 같은 원치 않는 행동을 줄이기 위해 DPO를 활용하였습니다. 선호도 데이터를 활용하여 모델의 출력과 DeepSeek-R1의 출력을 비교함으로써 효과적으로 모델 응답을 개선하였습니다.
 ### 모델 사양

 ### 데이터셋 수집
 다음과 같은 과정을 통해 고품질 Instruction 샘플로 이루어진 종합적인 모델 학습 데이터셋을 구축했습니다:
+- **경진대회**: 경진대회 중 HuggingFace에 제출된 200,000개 이상의 데이터 중 MinHash 알고리즘과 정규식 필터링을 통해 신중하게 선별된 80,000개의 지시형 데이터셋을 구축하였습니다.
+- **추론 응답**: DeepSeek-R1 모델을 사용하여 생성된 응답은 물론, 공개적으로 이용 가능한 영어와 한국어 온라인 자료에서 수집한 Prompt-Response 쌍을 통해 보완하였습니다.
 - **검증**: GPT-4o를 LLM-as-a-Judge로 활용한 검증 프로세스 및 자동 품질 검사를 통해 데이터의 무결성과 정확성을 강화하였습니다.
 ### 학습 방법
 ₩ON 모델 학습을 위해 다음과 같은 2단계 학습을 진행하였습니다:
 - SFT: 이 단계는 금융 추론 작업과 관련된 모델의 초기 행동을 조정하는 데 초점을 맞췄으며, DeepSeek-R1 모델로 생성한 상세한 응답과 세심하게 선정된 프롬프트를 사용했습니다. 데이터셋은 한국어와 영어에서 언어적 일관성을 확보하기 위해 철저히 검토된 Prompt-Response 쌍으로 구성하였습니다.
+- DPO: SFT 진행 후, 모델의 과도한 생각 과정 또는 일부 질문에 대한 잘못된 해석과 같은 원치 않는 행동을 줄이기 위해 DPO를 활용하였습니다. 선호도 데이터를 활용하여 모델의 출력과 DeepSeek-R1의 출력을 비교함으로써 모델 응답을 효과적으로 개선하였습니다.
 ### 모델 사양