[Review] Fostering Appropriate Reliance on Large Language Models: The Role of Explanations, Sources, and Inconsistencies

[발표자] 최예인 (cyaein@sookmyung.ac.kr)

[논문 제목] Fostering Appropriate Reliance on Large Language Models: The Role of Explanations, Sources, and Inconsistencies

[저자] Sunnie S. Y. Kim, Jennifer Wortman Vaughan, Q. Vera Liao, Tania Lombrozo, and Olga Russakovsky

[학술대회/학술지] CHI ’25: CHI Conference on Human Factors in Computing Systems

[URL] https://dl.acm.org/doi/full/10.1145/3706598.3714020


댓글

“[Review] Fostering Appropriate Reliance on Large Language Models: The Role of Explanations, Sources, and Inconsistencies” 글의 댓글 7개

  1. 해당 연구 내용을 들으면서 기존에 제가 느끼고 있던 생각들을 검증할 수 있었습니다. 실제로 저 역시 그럴듯한 설명에 대해서는 내용의 진위와 관계없이 과도하게 신뢰하거나, 응답에 출처가 제시되면 곧이곧대로 믿는 경향이 있었습니다. 하지만 막상 출처를 확인했을 때 정보가 없거나 내용이 다를 경우 신뢰가 급격히 낮아지는 경험도 했습니다. 이러한 점을 많은 사람들이 공통적으로 느끼고 있었다는 사실이 인상 깊었고, 연구 주제와 직접적인 관련은 없지만 할루시네이션이 LLM의 신뢰도 하락에 있어 치명적인 요인임을 다시금 실감할 수 있었습니다.

    연구 결과 중 ‘불일치 설명을 제공했을 때 참가자의 정답 accuracy가 유의미하게 높아졌다’는 부분은 참가자의 개인적 특성에 따라 결과가 달라질 수 있겠다는 생각이 들었습니다. 해당 연구에서는 ‘정확도 50% 미만의 질문’을 선정하여 대부분의 참가자들이 잘 모르는 도메인에서 AI의 오류를 인지하고 불일치를 파악하였습니다. 그러나 만약 참가자들이 도메인 지식이 부족한 상태에서 AI에 대한 신뢰나 유대감이 강하다면 논리적 오류나 불일치가 있어도 응답을 무조건적으로 수용할 가능성이 있다고 생각합니다. 또한 설명을 부분적으로만 읽거나 검증 과정을 생략하는 정보 처리 성향 역시 결과에 영향을 미칠 수 있을 것 같습니다. 따라서 후속 연구에서는 예인님께서 언급하신 부분에 더해 참여자의 개인적 특성이나 인지적 성향까지 함께 분석하면 좋을 것 같다는 생각이 들었습니다.

    Liked by 1명

  2. 스터디 2에서 파일럿 스터디를 통해 50%를 기준으로 질문 12개를 선정했다고 하였는데, 이 50% 기준은 어떻게 해서 선정된 것인가요?

    설명의 주요 효과로, 설명이 llm의 실제 정확성과 관계없이 사용자 의존도를 높이는 경향이 있다는 점이 흥미로웠습니다. 이는 최근 논의되고 있는 ‘무비판적 LLM 의존성’ 문제와도 연결된다고 느꼈습니다. 모델의 설명이 신뢰를 과도하게 유발할 수 있다는 점에서 중요한 시사점을 준다고 생각합니다.

    한편, 적절한 출처 제공이 이러한 사용자의 과도한 의존을 줄일 수 있다는 결과를 통해, ‘출처’ 역시 의존성 조절의 핵심 요소라는 것을 알 수 있었습니다.

    설명과 출처의 상호작용에 대해서는 객관적인 정보를 많이 제공할수록 사용자의 신뢰도와 그에 따른 궁금증이 해소될 것이라고 생각했기 때문에 설명과 출처 둘 다 있을 때 실험자들에게서 후속 질문이 적게 나올 것이라고 예상했습니다. 그러나 설명 자체만으로도 의존성이 크게 증가하여 출처의 부재에도 불구하고 후속 질문 비율이 낮게 나타난 점이 흥미로웠습니다. 이는 설명이 사용자 인지적 만족감에 미치는 영향을 보여주는 중요한 결과라고 생각합니다.

    Liked by 1명

  3. 일단 LLM에 대한 과도한 의존 완화라는 주제가 굉장히 흥미로웠습니다.
    저도 LLM을 사용하면서 출처 표시는 많이 접했지만, 사실 이 LLM이 이 출처들로부터 정보를 어떻게 가져오는 건지 그 메커니즘을 모르니 출처가 주어진다 해도 그것이 바로 신뢰로 이어지진 않았습니다. 본 연구에서는 출처의 존재가 의존에 미치는 영향을 연구하여 이것이 설명 및 불일치와 어떻게 상호작용하는지 분석한다고 하니 흥미롭게 느껴졌습니다.

    <질문 리스트>

    Q1. 근데 연구를 보면서 의문스러웠던 점은 연구진이 미리 만들어둔 AI 답변과 출처를 제시할 때 답변은 GPT-4o를 통해서 얻고, 답변에 대한 출처 링크는 퍼플렉시티 AI를 통해서 얻어 둘을 합쳐서 제시하던데, 왜 답변과 출처 링크를 각각 다른 AI로부터 얻어 제공한 건지 궁금합니다.

    Q2. 근데 사용자들이 가상의 AI를 실시간으로 AI를 사용하는 것처럼 느껴지게 했다면, 사용자마다 프롬프트를 직접 입력한 건가요?(제시된 프롬프트를 쓰는 게 아니라) 근데 그렇다면 각 사용자별로 입력한 프롬프트에 차이가 발생할테고, 그러다보면 AI가 어떤 사용자에는 엉뚱한 답변을 내놓을 수도 있지 않았을까…? 라는 의문이 듭니다.

    Q3. 결과 표에서 괄호 안에 있는 숫자는 뭔가요?

    <결론에 대한 생각>

    불일치는 당연히 의존을 줄이는데 도움이 되겠지만 이 결론이 의미가 있는지는 잘 모르겠습니다. 사람으로 따지면 이 사람이 하는 말에 논리적 모순이 있는 셈이고 그러면 이 사람의 말에 신뢰도가 떨어지니까 안 믿게 되는 셈입니다.
    그러면 그냥 이 AI를 안 쓰게 된다는 것이죠. 당연히 안 쓰는 게 가장 의존도가 낮겠죠.
    그런데 이게 우리가 원하는 방향이 맞을까요?
    그냥 불일치가 적은 다른 AI로의 전환만 촉발하지 않을까요?

    <새롭게 알게 된 개념>

    정당성 품질: LLM의 답변이 얼마나 그럴 듯하고 납득할 만한 이유를 잘 제시했는가? 이 점수가 높을 수록 LLM의 답변이 왜 맞는지 잘 설명해준다고 생각한다는 뜻.
    실행 가능성: LLM의 답변이 사용자가 최종 답변을 결정하거나 다음 행동을 취하는데 얼마나 도움이 되는가
    -> 틀린 답변을 해서 정당성 품질이 낮아지더라도 그 답변에 있는 정보나 출처를 통해서 진자 정답을 찾아낼 수 있다면 실행 가능성이 좋은 것

      Liked by 1명

    1. 과도한 의존의 원인은 사용자들은 설명을 깊이 있게 분석하지 않고 유창성과 같은 표면적인 단서에 휴리스틱적으로 의존하여 인공지능의 응답을 따르기 때문
      출처는 신뢰를 높이거나 낮출수도 있음 -> 연구에서는 출처가 사용자들에게 어떤 영향을 미치는지 정량적으로 평가
      12개의 질문 생성 -> pilot study를 통해서 정확도가 50% 미만인 질문들 선정
      설명은 전확성 여부와 상관없이 사용자의 의존도를 높임
      llm의 설명이 정확할때 사용자의 정확도도 증가
      llm이 틀렸을때 출처가 제공되면 사용자가 오류를 발견하고 정확도를 높이는데 가장 효과적
      출처가 있으면 확인하는데 시간 더 사용 -> llm이 부정확할수록 시간 증가 폭 더 커짐
      설명과 출처 둘 다 있는 경우 자신감, 정당성 품질, 싱행 가능성이 가장 높음, 또 후속 질문의 비율이 가장 낮음

      Q 질문: 17분 30초즈음에 설명은 있고 출처가 없을댸 후속 질문 비율이 가장 낮다고 수정하셨는데 그럼 그 앞페이지에서 설명과 출처가 둘 다 있을때 후속 질문 비율이 가장 낮다는 말도 수정되어야 하는 건가요??

      향후 연구에 대해서 따로 언급되어 있지 않은데 자체적으로 생각해보고 적어놓은 부분이 좋았어요 굿!!

      Liked by 1명

    2. LLM을 평소에 사용할 때 과도한 의존을 가지지 않아야 한다는 점을 항상 생각하고 있었는데 이를 바탕으로 연구를 수행하고 일치도, 소요 시간, 클릭률 등을 분석하여 결과를 도출한 점이 흥미로웠습니다. 특히 가상의 AI 세타를 사전에 만들어서 어떻게 보면 참가자에게 AI 시스템이 바로 생성한 응답이 아닌 미리 정의된 응답을 제공함으로써 통제된 환경 속에서 측정했다는 점이 새로웠습니다. 한편으로는, 통제된 환경이 아닌 매번 다른 답변을 생성하는 AI 시스템으로 실험을 설계했다면 결과가 달라질까? 하는 의문도 들었습니다.

      또한, 불일치가 과도한 의존을 줄여주는 긍정적인 영향으로 작용한다는 결과가 평소에 생각하던 것과 비슷하여 공감하는 시간을 가질 수 있었습니다. 그리고 연구 결과에서 설명과 출처를 함께 제공했을 때가 출처만 제공했을 때보다 정확도가 낮다는 결과가 나왔는데 이는 제가 예상하던 것과 반대여서 왜 이러한 차이가 발생했을까? 하는 궁금증이 생겼습니다.

      추가적으로 출처를 클릭했을 때 정확도가 더 높아진다는 것이 확인되었음에도 불구하고 왜 참가자 절반 이상은 출처가 있어도 클릭을 하지 않는 것일까? 왜 이런 행동이 나타났을까? 혹시 과거에 AI가 제시한 출처가 신뢰할 수 없었던 경험이 클릭 행동을 저해했을까? 하는 생각도 들었습니다.

      그리고 발표 내용 중에서 설명은 있지만 출처가 없을 때 후속질문 비율이 낮아진다고 했는데 그래프의 y축을 보면 정확도인데 이 결과를 어떻게 해석해야하는지에 대한 추가적인 설명을 듣고 싶습니다.

      Liked by 1명

    3. 연구 과정을 직접 정리하여 설명해주셔서 이해하는데 도움이 되었습니다.

      저도 LLM이 키워드가 유사하지만 출처라고 하기 어려운 문서/링크를 제공해주는 경우를 많이 보아왔기에 LLM을 이용할 때 출처를 요구하는 경우가 많은데 이런 모습이 논문의 결과로 보여지는 것 같아 더욱 잘 와닿았던 것 같습니다.

      반대로 불일치에 대해서는 ‘그럴듯한’ 말을 잘 지어내는 LLM들이 과연 불일치를 의존성 완화를 위한 요소로 활용할 수 있을까? 하는 의문이 들었습니다. 그래서 개인적으로는 불일치 신호를 실제 시스템에서 어떻게 구현할지, 또 이러한 불일치를 제공했을 때 사용자 혼란이나 신뢰 저하 같은 추가적인 문제가 생기지는 않을지 더 고민이 필요하다고 생각됩니다.

      Liked by 1명

    4. 제가 생각할 때에는 설명, 출처, 불일치 중에서 불일치는 결이 다른 느낌으로 다가왔는데요, 설명과 출처가 신뢰를 더하기 위한 참조사항이라면 불일치는 신뢰를 떨어뜨려 사용자가 다시한번 되돌아보게 만드는 장치라는 점에서 이 셋을 한 데 묶어 연구를 진행한 점이 흥미로웠습니다. 설명이 정확하면 사용자 정확도도 올라가고, 설명이 부정확하면 사용자 정확도도 낮게 나오는 결과에서는 LLM의존의 양면성을 느꼈지만 이걸 사용자들이 의존한다고 표현할 수 있을지? (의도에 따라 현혹당했다고 볼 수도 있지 않을까?)에 대한 의문도 잠시 들었고요, 설명이 있으면서 출처가 없을 때 후속질문이 가장 적었다는 결과는 의외였습니다. 출처가 있으면 오히려 더 출처로 이동하여 추가 정보를 얻어 질문이 없을것 같은데, 그 이유가 궁금했습니다. 전반적으로 향후 연구 방향까지 스스로 제시한 점이 인상 깊었습니다.

      Liked by 1명

    박다은님에게 덧글 달기 응답 취소