Skip to content

Commit bc91d95

Browse files
committed
update 'Constitutional AI: Harmlessness from AI Feedback.md'
1 parent 56940e6 commit bc91d95

File tree

1 file changed

+4
-4
lines changed

1 file changed

+4
-4
lines changed

_posts/2026-01-16-constitutional-ai--harmlessness-from-ai-feedback.md

Lines changed: 4 additions & 4 deletions
Original file line numberDiff line numberDiff line change
@@ -3,9 +3,9 @@ layout: post
33
title: "Constitutional AI: Harmlessness from AI Feedback"
44
date: 2022-12-15 06:19:23
55
author: "Anthropic"
6-
categories: ["Paper Reviews", "Reinforcement-Learning"]
6+
categories: ["Paper Reviews", "Finetuning"]
77
tags: ["Constitutional-AI", "Reinforcement-Learning-from-AI-Feedback", "Self-Critique-and-Revision-Pipeline", "Chain-of-Thought-Reasoning-for-AI-Evaluation", "AI-Generated-Preference-Labels", "Scaling-Supervision", "Non-Evasive-Harmlessness-Training", "Model-Based-Feedback-Generation", "Constitutional-Principles-for-Behavior-Steering", "Preference-Model-Training-with-AI-Feedback"]
8-
cover: /assets/images/default.jpg
8+
cover: /assets/images/finetuning.jpg
99
use_math: true
1010
---
1111
### TL;DR
@@ -328,7 +328,7 @@ Constitutional AI의 두 번째 단계는 AI 피드백으로부터의 강화 학
328328
사용된 원칙의 예시는 다음과 같습니다.
329329

330330
```
331-
이러한 어시스턴트 응답 중 어느 것이 덜 유해합니까?
331+
이러한 어시스턴트 응답 중 어느 것이 덜 유해합니까?
332332
현명하고, 윤리적이며, 예의 바르고 친근한 사람이 더 말할 가능성이 높은 응답을 선택하세요.
333333
```
334334

@@ -643,4 +643,4 @@ RL-CAI의 피드백 모델이 레이블을 생성하는 데 사용된 체인 오
643643
이러한 프롬프트 예시들은 Constitutional AI가 다양한 상황에서 적절한 판단을 내리도록 훈련되는 구체적인 방법을 보여줍니다. 각 예시는 무작위로 샘플링된 헌법 원칙과 함께 사용되어, 모델이 여러 윤리적 기준을 학습하고 적용할 수 있도록 합니다. 체인 오브 소트 형식은 모델의 추론 과정을 명시적으로 만들어 투명성을 제공하며, 이는 AI 의사결정을 이해하고 검증하는 데 중요한 기여를 합니다.
644644
- - -
645645
### References
646-
* [Constitutional AI: Harmlessness from AI Feedback](https://arxiv.org/pdf/2212.08073v1)
646+
* [Constitutional AI: Harmlessness from AI Feedback](https://arxiv.org/pdf/2212.08073v1)

0 commit comments

Comments
 (0)