[Review] From Interaction to Impact: Towards Safer AI Agent Through Understanding and Evaluating Mobile UI Operation Impacts

[발표자] 박세라 (sera199@sookmyung.ac.kr)

[논문 제목] From Interaction to Impact: Towards Safer AI Agent Through Understanding and Evaluating Mobile UI Operation Impacts

[저자] Zhuohao (Jerry) Zhang, Eldon Schoop, Jeffrey Nichols, Anuj Mahajan, Amanda Swearngin

[학술대회/학술지] IUI ’25: Proceedings of the 30th International Conference on Intelligent User Interfaces

[URL] https://doi.org/10.1145/3708359.3712153


댓글

“[Review] From Interaction to Impact: Towards Safer AI Agent Through Understanding and Evaluating Mobile UI Operation Impacts” 글의 댓글 7개

  1. 이 논문 리뷰에서 가장 인상깊었던 점은 기존 연구들이 생성형 AI의 일반적 위험성에 초점을 두었던 것과 달리, 모바일 UI에서 사용자가 실제로 수행하는 액션이 가져오는 현실적 영향을 만들어내는지를 체계적으로 분석해 분류 체계를 세웠다는 점이었습니다. 그동안 저는 AI 에이전트가 사용자의 일을 대신 해주는 방향이 사용자 편의성과 곧바로 연결된다고 생각해왔는데, 본 연구를 통해 그런 단순한 관점에서 벗어나게 된 것 같습니다. AI 에이전트가 점점 더 사용자 대신 버튼을 누르고 결정을 수행하는 상황에서, “UI 액션이 실제로 어떤 결과를 야기하는가”라는 질문은 매우 현실적이고 중요한 문제라고 느껴졌습니다.

    LLM 평가 결과도 인상적이었는데, 여전히 모델이 UI 액션의 실제 세계 영향 뉘앙스를 제대로 파악하지 못하고 특히 사용자 의도를 잡아내지 못해 전체적인 영향 판단을 놓치는 패턴이 반복된다는 점이 흥미로웠습니다. 결국 AI가 UI 액션을 해석하는 데 있어 가장 어려운 부분은 사용자가 왜 그 버튼을 누르려고 하는가 즉, 맥락을 이해하는 것이며, 이는 단순한 화면 정보나 텍스트 설명만으로는 학습되기 어려운 영역임을 다시 생각해보게 되는 지점이었습니다.

    또한 연구 한계에서 언급된 것처럼, 이 논문의 주요 목표가 taxonomy를 만들고 현실 세계 UI 액션을 수집하기 위한 데이터 합성을 수행하는 것이었음에도 실제 IoT나 물리 환경에서 이를 검증하지 못했다는 점이 아쉬움으로 느껴졌습니다. 이러한 실제 맥락이 연구에 반영된다면 연구가 훨씬 더 확장성 있게 이어질 수 있을 것이라고 생각합니다.

    Liked by 1명

  2. 보면서 가장 흥미로웠던 부분은 UI 액션이 실제 세계에 어떤 영향을 미치는지를 자세하게 분석했다는 점입니다. 평소에 일상적으로, 기계적으로 행하는 클릭, 탭 같은 행동을 impact와 action 관점에서 분류하고 그 영향의 범위와 중대함 정도까지 체계적으로 분류한 부분이 새로웠습니다.

    특히 논문에서 제시한 10가지 카테고리(사용자의 의도, 현실세계에 미치는 영향, 다른 사용자에게 미치는 영향, 되돌리기 가능성 … 등)가 실제로 우리가 AI기술을 사용할 때도 반드시 고려되어야 하는 부분이라는 것을 다시 한 번 느꼈습니다. 공감되었던 부분은 LLM이 삭제 행동을 유독 민감하게 판정한다는 부분이었는데, LLM이 아직은 미세한 맥락과 의도를 완전히 이해하지 못한다는 점이 재밌기도 하고 동시에 앞으로 얼마나 더 정교하게 발전할 수 있을지 상상하게 되었습니다.

    평소 UI 행동을 이렇게까지 해체해서 면밀히 생각해 본 적이 없었는데, 당연하다고 여기던 행동을 연구 가능한 단위로 정의해냈다는 점에서 학술적으로도 시사점이 크다고 느꼈습니다. 에이전트가 UI를 다룰 때 안전성을 보장하기 위해 어떤 신호들을 이해해야 하는지, 그리고 그걸 LLM에게 얼마나 전달할 수 있는지 명확히 보여주는 연구라고 생각이 듭니다. 잘 정리해주셔서 감사합니다.

    좋아요

  3. 이번 연구는 UI 액션이 실제 사용자와 시스템에 어떤 영향을 미치는지 분류하는 텍서노미를 구성했다는 점이 흥미로웠습니다. 특히 되돌리기 기능을 시간 제약, 단계 복잡도, 잔여 흔적까지 고려해 세분화한 점이나, 다른 사용자에게 영향을 미치는 UI 액션을 하나의 범주로 포함한 점도 기존에 생각해보지 못했던 부분이라 신기했습니다!

    연구 절차에서 몇 가지 궁금한 점이 있었는데요, 여러 앱에서 행동을 브레인스토밍했다고 했는데, 앱마다 인지 부하나 기능 특성이 다른데 이를 통제하기 위한 장치가 있었는지 궁금합니다. 또한 UI 액션을 minimal, moderate, significant로 구분하면서 동의 비율 제시할 때 multi-label, single-label 카테고리의 신뢰도 평가는 어떻게 이루어졌는지 궁금합니다. 모델 선정 부분에서 성능이 낮은 Ferret-UI를 포함한 이유와 Gemini 1.5 Flash, MM1.5를 선택한 이유가 궁금합니다. 프롬프팅 방식 또한 단계별 전략(제로샷→지식 기반→ICL→CoT)을 사용한 이유가 궁금하고, 각각이 어떤 성능적 차이를 노리고 구성된 것인지 알고 싶습니다. 평가에서는 threshold를 0.5로 설정한 점이 궁금합니다.

    영상을 보면서 미래 연구에서 텍서노미 기반 파인튜닝이 어떤 개선 효과를 가져올지, 또 AI 중심 UI 설계가 사용자 경험에도 긍정적일지 궁금하고, 기대가 되었습니다. 전반적으로 연구 내용 흥미로워서 재밌게 들을 수 있었습니다!

    좋아요

  4. 유아이 액션 영향에 대해 분류체계를 만들고 분류체계를 바탕으로 현실세계 유아이 수집 위한 데이터 합성 연구 실시

    1. 유아이 액션 영향에 대한 예비 분률체게를 만들어 자동화된 에이전트의 결과를 이해하고 분류
      -> pilot workshop 수행
      -> 초기 5가지 분류체계 생성
    2. 본격적으로 워크숍 진행
      -> 비디오 및 대화 기록을 바탕으로 분석
    3. 최종 분류체계
      -> general category 10개
      -> specific category 35개
    4. 더 현실적인 유아이 액션 기록을 위한 데이터 합성 연구 수행
      -> 유아이 액션 기록, 의도된 작업인지 확인
    5. 유아이 액션의 영향을 llm이 잘 이해하는가? 확인
      -> 5개의 llms와 4개의 llm 프롬프팅 전략 활용

    유아이 분류체계를 만들고 그를 바탕으로 데이터 합성 연구까지 진행한 부분이 매우 체계적인 논문이란 생각이 들었습니다! 잘 정리해주셔서 감사합니다!

    좋아요

  5. 앞서 친구들이 언급했듯이 이 논문에서 제기한 문제가 정말 흥미롭습니다. 바로 출력이 위험한가, 정책 위반이 있는가, 설명 가능한가, 개인정보를 직접 생성하는가와 같은 에이전트의 실행 결과가 아닌 에이전트의 (UI 조작) 행동 하나하나를 평가한다는 점입니다.

    다른 중요한 인사이트는 앱마다 클릭의 위험도가 다르다, 즉 맥락이 중요하다는 점인 것 같습니다. 무슨 앱에서 쓰냐에 따라 위험도가 완전히 달라지니, LLM agent safety의 난이도가 크게 증가할 것으로 예상됩니다.

    논문에서 제안한, 안전한 에이전트 설계 방안인 Operation-level risk scoring도 정말 유용한 것 같습니다. 모바일 UI 요소마다 risk score를 붙여서 에이전트가 행동하기 전에 안전 여부를 판단하게 한다면 에이전트를 이전보다 에이전트를 훨씬 안심하고 사용하고 있을 것입니다.

    좋아요

  6. 에이전트의 UI 액션이 미치는 영향이라는 새로운 관점의 분류 체계를 제시했다는 점에서 많은 후속 연구가 진행될 수 있는 기반을 마련했다고 생각합니다. 특히 기존 연구에 비해 인간 중심적인 관점을 중요하게 보았다는 점에서 HCI 연구에 큰 기여가 될 거라고 생각됩니다.

    새로운 체계(기준)로 이용되기엔 실험 참가자 규모가 작다는 점과 모바일 앱이 사용자에게 많은 반응을 일으키는 알림 등을 고려하지 못했다는 점이 아쉽지만 앞서 얘기했듯 후속 연구를 통해 발전할 방향이 많다는 점에서는 긍정적인 것 같습니다.

    본 연구를 시작으로 좋은 후속 연구들이 진행되어 에이전트의 안전성에 대한 새로운 기준을 세워나가기를 기대합니다.

    좋아요

  7. 이 논문은 AI 에이전트의 안전성 연구에 정말 중요한 방향을 제시하는 것 같습니다. 특히 기존 연구들이 UI 자체에 집중했던 것과 달리, UI 액션의 결과와 영향을 체계적으로 분류하고 평가했다는 점이 인상 깊었습니다.
    UI 영향 분류 Taxonomy를 10개 카테고리, 35개 세부 카테고리로 구축하는 과정(특히 ‘Impact on Other User’나 ‘Long-term Effect‘가 추가된 부분들!)이 현실 세계의 복잡성을 잘 반영한 것 같아 공감하며 들었습니다.
    다만, LLM 평가 결과에서 GPT-4 멀티모달 COT 프롬프팅이 가장 높은 정확도를 보였음에도 전체적으로 60%를 넘지 못했다는 점이 많이 아쉬운 논문입니다. 이는 LLM이 ‘영향 판단의 뉘앙스’를 포착하는 데 어려움을 겪는다는 것을 보여주는 것 같아 그런것 같다고 전달해주셨는데요, 혹시 이 뉘앙스 차이를 줄이기 위해 데이터 합성 연구에서 수집된 250개 데이터셋 중 LLM이 특히 오분류했던 영향 사례의 특징을 좀 더 자세히 분석한 내용이 논문에 담겨있는지 궁금합니다.

    좋아요

김예인님에게 덧글 달기 응답 취소