[Review] Evaluating user performance with RAG-based generative AI: A scenario-based experiment on AI-assisted information retrieval

[발표자] 박세라 (sera199@sookmyung.ac.kr)

[논문 제목] Evaluating user performance with RAG-based generative AI: A scenario-based experiment on AI-assisted information retrieval

[저자] Aktilek Sagynbayeva, Ajin Pyo, Sang-Hyeak Yoon, Sung-Byung Yang

[학술대회/학술지] Published in Computers in Human Behavior

[URL] https://doi.org/10.1016/j.chb.2026.108952


코멘트

5 responses to “[Review] Evaluating user performance with RAG-based generative AI: A scenario-based experiment on AI-assisted information retrieval”

  1. 최예인

    성형 AI의 할루시네이션 문제로 인해 자료의 신뢰성을 확보하는 데 어려움이 많은데, RAG가 정보의 정확성과 완전성을 어떻게 높여주는지 실험적으로 증명한 부분이 인상 깊었습니다. TTF(Task-Technology Fit) 이론을 적용해 기술적 기능과 사용자의 과업 목표 간의 일치성을 분석한 접근 방식은 제 개인 연구의 이론적 기틀을 고찰해보는 데에도 큰 도움이 되었습니다.

    무엇보다 객관적인 성과 지표는 향상되었음에도 불구하고 사용자의 주관적인 평가에서는 그 차이가 명확히 드러나지 않았다는 결과가 정말 많이 흥미로웠습니다. 이는 단순히 기술적 성능을 높이는 것뿐만 아니라, 사용자가 기술의 효용을 체감할 수 있도록 투명성을 강화하는 UI/UX 설계가 얼마나 중요한지 다시금 깨닫게 해주는 것 같습니다.

    감사합니다.

  2. 확실한 출처 문서를 바탕으로 정보를 제공하는 RAG의 특성 상, 정확성, 관련성, 완전성 측면에서 모두 높은 성능이 나타난 것은 충분히 예상 가능한 결과라고 생각했습니다. 하지만, 일반적으로 자기효능감이나 신뢰도같은 변수는 결과에 긍정적인 영향을 미칠 것으로 예상되는데, self-efficacy가 사용자 성능에 유의미한 영향을 미치지 않았다는 결과는 의외였습니다. 이러한 결과를 오히려 “AI 시스템의 객관적인 능력이 사용자의 신뢰보다 더 강하게 작용할 수 있다”는 RAG 성능의 강력함의 근거로 해석한 점이 인상 깊었습니다 .
    또한, 실험 뿐만 아니라 전문가 평가의 신뢰도, 사용자들이 의도에 맞게 이해하였는지 검증하는 절차까지 고려한 점으로 보아, 연구 설계와 검증 과정에 상당한 시간이 소요되었을 것으로 보입니다. 향후 RAG를 활용한 연구를 설계할 때 아주 유용한 참고문헌이 될 것 같습니다. 좋은 논문 리뷰 감사합니다.

  3. 한은정

    RAG 시스템을 단순히 LLM의 할루시네이션을 완화하는 기술로 이해하고 있었는데, 본 연구를 통해 RAG의 효과를 정보 품질(정확성, 관련성, 완전성)이라는 구조화된 관점에서 평가할 수 있다는 점이 인상적이었습니다. 특히 이러한 정보 품질 요소가 후반부의 RAG functionality를 설명하는 핵심 변수로 활용되면서 RAG의 성능 향상을 보다 체계적으로 입증할 수 있는 이론적 기반을 제공한다는 점에서 의미가 크다고 생각합니다.

    또한, 사용자들이 인식하는 AI 성능이 주관적 평가와 객관적 평가 간에 차이를 보였다는 결과 역시 흥미로운 지점이었습니다. 주관적 평가에서 RAG의 장점이 상대적으로 덜 드러난 이유가 사용자의 기술 이해 부족 때문이라면, 이는 단순히 시스템 성능 개선을 넘어 사용자에게 기술을 어떻게 전달하고 인식시키느냐의 문제로 확장될 수 있을 것 같습니다.

    향후에는 말씀해주신 한계점과 더불어, RAG 시스템의 성능을 개선하는 것뿐만 아니라, 비전문가 사용자에게 RAG의 작동 원리와 신뢰 근거를 효과적으로 전달하는 인터페이스 또는 설명 방식에 대한 연구도 함께 필요할 것이라는 생각이 듭니다.

    좋은 논문 리뷰 감사합니다.

  4. 박다은

    이번 연구는 어느 정도 예상 가능한 결과를 보여주지만, RAG 기반 생성형 AI의 효과를 단순 정확도가 아니라 사용자 퍼포먼스 관점에서, 그리고 TTF 이론을 통해 분석했다는 점이 특히 인상적이었습니다. 기존 연구들이 시스템 성능 지표에 집중했다면, 이 논문은 TTF 관점에서 실제 사용자의 수행 결과까지 연결했다는 점에서 의미가 있다고 생각합니다.

    저도 RAG의 효과는 통계적으로 유의미하게 나타났지만, 정작 사용자들은 그 차이를 크게 인지하지 못했다는 결과가 특히 흥미로웠습니다. 이는 겉보기에는 모순적으로 보일 수 있지만, 오히려 RAG가 사용자의 인지적 부담을 증가시키지 않으면서 자연스럽게 성능을 보완해주는 방향으로 작동한게 아닌가라는 생각이 듭니다. 저는 이를 사용자가 더 좋아졌다고 느끼지 못하더라도, 실제 수행 결과는 개선되는 invisible assistance로 해석하였습니다.

    하나 궁금했던 점은 사용자들이 RAG 사용 여부를 비교적 정확히 인지한 부분입니다. 이는 단순히 인터페이스 차이 때문인지, 아니면 응답의 근거 제시 방식이나 정보의 구체성 차이 때문인지, 아니면 도메인 지식 수준에 따라 RAG 여부를 더 잘 구분했는지 궁금합니다.

    향후 다양한 도메인이나 최신 모델 환경에서 어떻게 결과가 달라질지 궁금해지는 연구라고 생각하며, 좋은 논문 리뷰 감사합니다!

  5. 김예인

    객관적인 성능 상승과 달리 사용자들이 RAG의 성능 차이를 충분히 인식하지 못했다는 점이 가장 인상 깊었습니다. 조금 확장하여 생각해본다면 상대적으로 성능이 낮은 시스템을 좋은 시스템과 구별하지 못한다거나 반대로 성능이 높은 시스템의 장점을 충분히 인식하지 못할 가능성을 보여주는 것 같아 사용자가 그 차이를 이해하고 적절히 활용할 수 있도록 어떻게 전달할 것인지 추가적으로 고민해보아야 할 것 같습니다.

    또한 RAG 조건에서는 과제 복잡도에 따른 성능 차이가 크게 없었다는 점을 통해 RAG는 단순하게 정확성, 관련성을 강화하는 기술이라기 보다는 복잡한 정보 탐색이나 과제 수행이 필요한 상황에서 특히 적합한 구조라는 것을 알 수 있었습니다.

    좋은 논문 리뷰 감사합니다.

댓글 남기기

SM-HCAI LAB에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기