목록anthropic (1)

난 AI분야를 전공했거나 Computer Science를 공부하진 않았지만 대학에서 Mechanical Engineering을 배웠고 그 지식을 이용해서 삶을 살아가고 있는 평범한 공학 엔지니어이다. "Mechanical Engineer가 비전공자 관점에서 읽어 본 DeepSeek-V3 Paper Review - 01"에 이은 두 번째 DeepSeek 논문 리뷰글이다. 1. 서론: 왜 강화학습으로 추론능력을 키우는가? ○ 최근 대규모 언어모델(LLM)은 급속한 발전을 거듭하며 인간수준의 지능에 점점 더 가까워지고 있음 ○ 특히, 사후학습(Post-training)은 LLM의 성능을 더욱 끌어올리는 중요한 단계로 주목받고 있음. 사후학습은 모델이 사회적 가치에 부합하고 사용자의 선호도에 맞게 조..
Ordinary Life...
2025. 3. 7. 18:37