[Review] Objection Overruled! Lay People can Distinguish Large Language Models from Lawyers, but still Favour Advice from an LLM

[발표자] 김서연 (15607283@sookmyung.ac.kr)

[논문 제목] Objection Overruled! Lay People can Distinguish Large Language Models from Lawyers, but still Favour Advice from an LLM

[저자] Eike Schneiders, Tina Seabrooke, Joshua Krook, Richard Hyde, Natalie Leesakul, Jeremie Clos, Joel E Fischer

[학술대회/학술지] CHI ’25: Proceedings of the 2025 CHI Conference on Human Factors in Computing Systems

[URL] https://doi.org/10.1145/3706598.3713470


댓글

“[Review] Objection Overruled! Lay People can Distinguish Large Language Models from Lawyers, but still Favour Advice from an LLM” 글의 댓글 7개

  1. 일반적으로 “LLM과 전문가 중 누구의 조언을 더 신뢰할 것인가?”라는 질문을 받으면 대부분의 사람들은 전문가를 선택할 것입니다. 관련 연구에서 언급한 사례처럼, 실제로도 LLM의 할루시네이션(Hallucination) 문제나 다양한 신뢰성 이슈가 아직 완전히 해결되지 않았기 때문에 LLM 조언에 대한 신뢰도는 개인에 따라, 또 각자가 속한 그룹에 따라 크게 달라진다는 의견에 동의합니다.

    연구에서 진행한 첫 번째 실험은 출처가 제시되지 않았을 때 사람들이 변호사보다 LLM의 조언을 더 따르려는 경향이 있다는 흥미로운 결과를 도출했습니다. 그리고 이를 뒷받침하기 위해 두 번째 실험을 설계한 점이 인상 깊었습니다. 특히 출처가 제공되지 않는 동일한 조건에서 LLM이 생성한 텍스트가 명확한 설득 효과를 갖는다는 점을 실증적으로 보여주면서, 1차 실험의 결론을 보다 납득 가능하게 만들었다는 느낌이 들었습니다. 이러한 방식으로 연구 설계 과정 자체를 검증하고, 단계별 실험으로 논리적 정당성을 강화하는 접근법을 새로 알게 되어 흥미로웠습니다.

    그러나 결론에서 언급된 것처럼 3번째 실험을 통해 사람들은 충분히 LLM과 전문가를 구별할 능력이 있음에도 출처가 있을 때는 전문가를 선호하고 출처가 없을 때는 LLM을 선호한다는 결과가 상당히 모순적으로 다가왔습니다. 이는 사람들이 실제 판단의 순간에는 객관적 능력만이 아니라 “전문가를 따라야 한다”는 사회적 규범에 강하게 영향을 받는다는 점을 보여주는 것처럼 보였기 때문입니다. 생각보다 사람들은 인간 전문가를 따라야 한다는 사회적 규범에 많이 얽매여 있으며, 더 나아가 새로운 기술이나 혁신이 등장하더라도 사람들은 사회적 규범이 허용하는 범위 안에서만 그것을 받아들일 수도 있을 것이라는 생각이 들었습니다.

    Liked by 2 people

  2. 영상을 보면서 여전히 AI가 생성한 텍스트를 명확히 식별하기란 어렵다는 점을 다시 느꼈습니다. 지피티킬러와 같은 탐지 도구가 있긴 하지만 정확도가 높지 않기 때문에 사람이 쓴 글인지 기계가 생성한 글인지 판단하기가 쉽지 않습니다. 생성형 이미지는 어느 정도 시각적 단서로 구분이 가능하지만, 텍스트는 구조나 표현이 비슷해지는 경우가 많아 더욱 구별하기 어려운 것 같습니다. 이러한 점을 생각하면 사람들이 특정 정보를 얻기 위해 검색을 할 때 익숙하지 않은 도메인이라면 LLM의 잘못된 내용을 사실로 받아들일 수 있겠다는 생각이 들었습니다.

    영상을 보면서 궁금한 점이 있었는데요, 실험에서 참가자 수는 어떤 기준으로 산정되었는지 알고 싶습니다. 그리고 세 가지 프롬프트의 주제가 서로 다른데, 이 주제를 어떤 방식으로 선정했는지, 프롬프트 난이도나 주제 차이가 실험 결과에 영향을 줬을 가능성은 없었는지 궁금합니다. 또한 변호사와 LLM의 답변을 평가할 때 참여자들이 내용의 질뿐만 아니라 글의 구성까지 함께 평가한 것처럼 보이는데 만약 ‘내용의 질’만 비교하고자 했다면 변호사의 문서를 기반으로 모델을 추가 학습시키는 방식이 필요하지 않았을까 하는 의문도 들었습니다.

    실험 3단계에서 LLM과 변호사를 구분한 정확도가 59%에 그쳤다는 점은 사실상 ‘거의 구분하지 못했다’는 의미로 이해했습니다. 이는 참여자들이 내용보다는 더 간결한 글을 선택했기 때문일 수 있다고 생각합니다. 저 또한 익숙한 도메인의 글이라면 어느 정도 구분할 자신이 있지만, 생소한 분야라면 글의 이해 용이성에 크게 의존할 것 같습니다. 일반적으로 사람들은 어려운 표현을 사용할수록 전문적인 글이라 인식하는 경향이 있어서 변호사의 답변에서 전문 용어를 사용하는 것만으로는 LLM과 차이가 크게 드러나지 않았을 듯합니다. 오히려 LLM이 간결하게 정리한 답변이 더 신뢰감 있게 느껴졌을 가능성이 큽니다. 다만 ‘일반인’이 아닌 실제 변호사나 법률 문서에 익숙한 사람들로 실험했다면, 두 조언을 훨씬 잘 구분했을 것이라 생각합니다.

    그렇기 때문에 법률 분야에서는 특히 AI가 생성한 조언이라는 사실을 명확히 고지하는 것이 필요하다고 생각합니다. 법령은 자주 개정되고, 작은 표현도 법적 효과를 크게 바꿀 수 있기 때문에 실시간성이 보장되지 않는 LLM의 잘못된 정보는 일반인들에게 위험을 초래할 수 있습니다. 이번 연구는 이러한 문제를 앞으로 어떻게 해결할지 고민하게 만드는 출발점이 된다는 점에서 중요한 연구인 것 같습니다!

    좋아요

  3. 일반인은 llm이 만든 조언을 얼마나 신뢰하고 그것을 따르려고 하는가?
    3번의 실험에 다 동일한 프롬프트 사용
    첫번째 실험에서는 변호사의 조언을 더 따르려고 함 하지만 출처 인식 여부는 참가자들의 전반적인 행동 의향에 영향이 없음
    -> 사후 분석에서는 출처를 모를때는 llm 조언을 훨씬 잘 따랐음
    두번째 실험 역시 llm의 정보를 더 따름
    세번째 실험에서는 참가자들이 구별할 수 있는지? -> 59%의 정확도가 나와 유의미 하다고 평가

    변호사의 수가 너무 적었던게 신뢰도가 좀 떨어지는 부분이었던 것 같습니다.
    그리고 한계로 언급되었던 왜 사람들이 llm의 조언에 더 따르는지 확실한 해답이 없는 부분이 너무 핵심적인 내용이 빠진 것 같아 아쉬웠습니다
    또 인공지능에 대해 경각심을 가져야 된다는 부분은 매우 동의하는 부분입니다!!

    좋아요

  4. LLM이 생성한 법률 조언과 변호사가 생성한 법률 조언의 수용 의향과 구분을 주제로 연구를 수행한 점이 흥미로웠습니다. 한편으로는 들으면서 법률이 아닌 병원 등 다른 분야는 결과가 어떻게 나올까? 하는 궁금증도 생기는 논문이었습니다.

    개인적으로는 변호사의 법률 조언이 LLM의 조언보다 전문적으로 인식되어 더 따를 것이라고 예상했지만 결과로 LLM의 조언을 더 따르려고 했다는 점이 새로웠습니다. 논의에서 다룬 것처럼 3명의 변호사들의 글쓰기 스타일의 영향도 있겠지만, 한편으로는 LLM이 짧고 복잡한 글을 만들어 전문성을 갖춘 듯한 인상을 줄 만큼 상당히 발전했다는 사실처럼 느껴졌습니다. 이 점은 앞으로 LLM의 발전이 우리의 환경에 어떠한 도움을 줄까 하는 기대감도 생기는 부분이었습니다.

    또한, 실험 과정에서는 “변호사로서 말씀드립니다”처럼 혼란스러운 텍스트를 삭제하여 출처를 구분할 수 없게 동일한 조건처럼 보이게 하는 방식도 흥미로웠습니다. 출처를 밝히면 변호사의 조언을 따르는 경향이 높다는 점이 당연한 결과처럼 느껴지기도 했지만, 사람들이 출처를 구분할 수 있음에도 불구하고 전문가를 따르려는 사회적 규범이 작동한다는 점도 인상적이었습니다.

    한편으로는 본 논문의 한계에서 언급된 것처럼 GPT-4o가 아닌 현재의 제미나이의 딥리서치를 활용하는 등 법률 문헌과 법 조항을 근거로 조언을 제공한다면 결과가 어떻게 달라질지 궁금증이 생기기도 했습니다. 좋은 발표 감사합니다.

    좋아요

  5. 이전에 프로젝트 아이디어를 구상할때 법률 자문 에이전트를 고민해보았던 적이 있는데 이런 서비스를 뒷받침할 수 있는 논문인 것 같습니다.

    다만 법률이라는 점에서 LLM 출력의 설명가능성과 사용자의 신뢰를 중요하게 해야한다는 점에서 지난 논문 리뷰 중 설명이나 출처가 제시될 때 LLM 의존성이 달라진다는 논문과 논의점이 이어진다고 생각합니다. 이와 같은 관련 연구들을 바탕으로 투명성은 높이고 의존성은 낮추는 장치가 정말 필요하다고 느낍니다.

    그리고 향후 연구로 실제 자문을 따랐을 때의 결과를 추적하는 연구를 제시했는데, 법률의 자문이 필요한 상황에서 LLM 개입으로 발생할 수 있는 리스크를 고려하면 실제 연구로 이어지기는 어렵다고 생각됩니다. 때문에 시뮬레이션 기반 평가 등 위험을 최소화하며 연구를 확장해나가는 방법이 필요하다고 생각합니다.

    좋아요

  6. 일단 영상을 보면서 2번의 충격을 받았는데, 첫 번째는 기존 변호사들이 LLM을 활용해 허위의 판례를 들어 주장한 사례가 있다는 것이고, 두 번째는 사람들이 출처를 알게 되어도 변호사보다 LLM의 조언을 더 따르려했다는 것입니다. 처음에 ‘어떻게 전문 변호사 자격증을 취득한 사람보다 출처 모를 데이터를 난사하는(?) AI를 더 신뢰할 수 있지?’라고 생각하여 사람들의 선택을 이해할 수 없었으나, 영상을 끝까지 보고 나니, 변호사들의 책임 회피적 말투에서 신임을 다소 잃었을 수 있겠다는 생각이 들었습니다.

    다은 학생의 말대로 59%의 확률로 LLM과 실제 변호사를 구분할 수 있었다는 사실만으로는 “사람들은 어느 정도 LLM과 변호사를 구분할 수 있었음에도 LLM을 더 선호했다.”라고 하기엔 무리가 있을 것 같습니다.

    좋아요

  7. LLM이 생성한 법률 조언에 대해 일반인이 출처를 모를 때 변호사 조언보다 더 따르려 했다는 결과가 정말 인상 깊습니다. 특히, LLM의 구조적이고 자신감 있는 문체가 불확실성을 강조하는 변호사의 조언보다 더 전문적으로 인식되었을 가능성(언어 복잡도, 글 길이 등)에 대한 논의가 기억에 남습니다.
    다만, 출처를 알게 되면 변호사 선호도가 올라가고, 대략 59%의 정확도로 구별해냈다는 점에서 단순히 LLM이라서 신뢰했다기보다는, 조언의 형식적 특성이 신뢰도에 더 큰 영향을 미쳤을 수 있다는 생각이 듭니다. LLM의 과신 위험과 AI 리터러시 교육의 중요성을 다시 한 번 느낍니다. 앞으로 많은 연구실에서 AI 생성 텍스트의 식별(워터마크 등)과 책임 소재에 대한 후속 연구들이 많이 진행되었스면 좋겠습니다.

    좋아요

박서윤님에게 덧글 달기 응답 취소