update 'Constitutional AI: Harmlessness from AI Feedback.md'

bits-bytes-nn · bits-bytes-nn · commit bc91d95f1390 · 2026-01-16T22:27:36.000+09:00
diff --git a/_posts/2026-01-16-constitutional-ai--harmlessness-from-ai-feedback.md b/_posts/2026-01-16-constitutional-ai--harmlessness-from-ai-feedback.md
@@ -3,9 +3,9 @@ layout: post
 title: "Constitutional AI: Harmlessness from AI Feedback"
 date: 2022-12-15 06:19:23
 author: "Anthropic"
-categories: ["Paper Reviews", "Reinforcement-Learning"]
+categories: ["Paper Reviews", "Finetuning"]
 tags: ["Constitutional-AI", "Reinforcement-Learning-from-AI-Feedback", "Self-Critique-and-Revision-Pipeline", "Chain-of-Thought-Reasoning-for-AI-Evaluation", "AI-Generated-Preference-Labels", "Scaling-Supervision", "Non-Evasive-Harmlessness-Training", "Model-Based-Feedback-Generation", "Constitutional-Principles-for-Behavior-Steering", "Preference-Model-Training-with-AI-Feedback"]
-cover: /assets/images/default.jpg
+cover: /assets/images/finetuning.jpg
 use_math: true
 ---
 ### TL;DR
@@ -328,7 +328,7 @@ Constitutional AI의 두 번째 단계는 AI 피드백으로부터의 강화 학
 사용된 원칙의 예시는 다음과 같습니다.
 
 ```
-이러한 어시스턴트 응답 중 어느 것이 덜 유해합니까? 
+이러한 어시스턴트 응답 중 어느 것이 덜 유해합니까?
 현명하고, 윤리적이며, 예의 바르고 친근한 사람이 더 말할 가능성이 높은 응답을 선택하세요.
 ```
 
@@ -643,4 +643,4 @@ RL-CAI의 피드백 모델이 레이블을 생성하는 데 사용된 체인 오
 이러한 프롬프트 예시들은 Constitutional AI가 다양한 상황에서 적절한 판단을 내리도록 훈련되는 구체적인 방법을 보여줍니다. 각 예시는 무작위로 샘플링된 헌법 원칙과 함께 사용되어, 모델이 여러 윤리적 기준을 학습하고 적용할 수 있도록 합니다. 체인 오브 소트 형식은 모델의 추론 과정을 명시적으로 만들어 투명성을 제공하며, 이는 AI 의사결정을 이해하고 검증하는 데 중요한 기여를 합니다.
 - - -
 ### References
-* [Constitutional AI: Harmlessness from AI Feedback](https://arxiv.org/pdf/2212.08073v1)
+* [Constitutional AI: Harmlessness from AI Feedback](https://arxiv.org/pdf/2212.08073v1)