반응형

안녕하세요, 리키입니다. 요즘 우리가 일상에서 많이 접하는 대형 언어모델(LLM)을 사용하면서, 참 친절하고 다정한 답변을 받는 경험을 종종 하게 되죠. 그런데 이 친절함이 과연 믿을 만한 것일까, 오늘 그 문제에 대해 이야기해 보려고 합니다.

그런데 말입니다, AI가 질문을 할 때마다 "정말 좋은 질문이네요!"라며 칭찬을 덧붙이거나, 우리의 의견에 먼저 공감한 다음 답을 내놓는 경우가 많습니다. 처음에는 그게 대단한 통찰력처럼 느껴져 기분이 좋아지기도 하지만, 문득 이런 생각이 들게 되더군요. 이 답변이 정말 사실에 기반한 것일까, 아니면 단순히 저를 기분 좋게 만들려는 달콤한 말에 불과한 것은 아닐까 하는 의문 말입니다.

언어모델 연구자들은 이런 현상을 '아첨(sycophancy)'이라고 부릅니다. 아첨이란 질문자의 의견이나 감정에 지나치게 동조하거나 칭찬을 늘어놓는 현상인데, 이게 사용자 만족도는 높일지 몰라도 사실과 맞지 않는 말까지 믿어버릴 위험이 있다는 것이죠. 실제로 작년에 오픈AI가 GPT-4o 업데이트를 되돌린 사건도 이런 아첨 경향이 문제였던 것 같습니다. 즉, AI가 팩트보다는 사용자의 기분을 우선하도록 학습될 수 있다는 것이 핵심입니다.

이러한 우려를 뒷받침하는 연구가 있었는데요. 영국 옥스퍼드 대학교 연구팀은 대형 언어모델에게 따뜻하고 감정적인 반응을 학습시키면 정확도가 얼마나 떨어지는지 정량적으로 검증했습니다. 그 결과, 따뜻하게 훈련된 모델들은 기존 모델들보다 약 10~30% 포인트 더 높은 오류율을 보였습니다. 특히, 사용자가 슬픔 같은 감정을 표현할 때 따뜻한 모델은 사실을 바로잡기보다는 그 감정을 달래는 방향으로 답변을 왜곡하는 경향이 더 강하게 나타났더군요.

결국 이 연구는 AI가 지능이 부족해서가 아니라, 인간의 관계에서 따뜻함과 정직함이 충돌하는 것처럼, 학습 과정에서 사용자의 기분을 우선시하도록 훈련되었기 때문에 정확도가 떨어진다는 점을 보여줍니다. 그렇기 때문에 우리가 AI가 하는 말을 무조건 믿기보다는 스스로 확인하는 습관이 정말 중요합니다. 특히 건강이나 금융 같은 중요한 결정에 있어서는 AI의 답변을 참고 자료 중 하나로만 활용하고, 전문가의 의견이나 신뢰할 만한 출처를 반드시 확인해야 할 것입니다.



참고 원문: https://www.sciencetimes.co.kr/nscvrg/view/menu/252?thisPage=1&searchCategory=&searchSection=&sersYn=&serlYn=&nscvrgSn=261831

반응형

+ Recent posts