[Review] Shaping Human-AI Collaboration: Varied Scaffolding Levels in Co-writing with Language Models

[발표자] 김예인(cit2lights@sookmyung.ac.kr)

[논문 제목] Shaping Human-AI Collaboration: Varied Scaffolding Levels in Co-writing with Language Models

[저자] Paramveer S. Dhillon, Somayeh Molaei, Jiaqi Li, Maximilian Golub, Shaochun Zheng, and Lionel Peter Robert

[학술대회/학술지] CHI ’24: CHI Conference on Human Factors in Computing Systems

[URL] https://dl.acm.org/doi/abs/10.1145/3613904.3642134


댓글

“[Review] Shaping Human-AI Collaboration: Varied Scaffolding Levels in Co-writing with Language Models” 글의 댓글 8개

  1. 전반적인 실험 설계 과정에서 연구진이 모든 참여자가 최대한 공정한 조건에서 외부 개입 없이 실험에 임할 수 있도록 세심하게 설계했다는 점이 인상적이었습니다.
    특히 글쓰기 주제 선정 단계에서 이러한 원칙을 지키기 위해 다양한 접근 가능성과 균형 잡힌 논의가 가능한 뉴욕타임즈의 주제 세트를 활용한 점이 연구의 신뢰도를 높였다고 느꼈습니다.

    또한 실험 결과에서 단락 단위의 지원이 글의 구조화와 품질 향상에는 긍정적인 영향을 미쳤으나, 참가자의 만족도는 오히려 감소했다는 역설적 결과가 매우 흥미로웠습니다. 이는 AI가 생성한 글의 품질을 높이더라도 인간은 글쓰기 과정에서 ‘노력’과 ‘참여감’을 만족도의 중요한 요소로 인식한다는 점을 보여주는 것 같습니다.
    글의 완성도와 개인적 만족도가 항상 정비례하지 않는다는 사실이 새롭게 다가왔으며, 인간-AI 협업 글쓰기의 본질적인 딜레마를 잘 드러내는 결과라고 생각합니다.

    Liked by 1명

  2. 초기에 ai 기반 글쓰기 도구와 인간의 관계는 철자 오류를 탐지하거나 문장 교정, 요약 등 사용자의 텍스트를 예측하거나 수정하는 수준에서 그침 하지만 생성형 딥러닝 모델이 등장한 후에는 보조도구로에서 능동적 협력자로 재정의 됨
    본 연구는 더 폭넓은 정량적 평가 지표 개발

    스캐폴딩: 학생이 과제를 수행할때 성과를 향상시키기 위해 일시적으로 제공되는 교수적 지원
    본 연구는 인공지능 기반 스캐폴딩 사용

    결과 변수

    1. 출력 품질
      1) 텍스트 품질
      2) 편집 횟수
      3) 오류 갯수
      -> 지원이 너무 적으면 방해, 충분히 구조화된 지원은 도움
    2. 정서적, 인지적 몰입
      1) 사용자 만족도
      2) 텍스트 소유감
      3) nasa 인지 부하 지수
      => 사후 설문을 통해 수집
      -> 품질을 높여도 만족도가 높아지는 것은 아님, 인간의 창작 경험이 약화
    3. 과제 효율성과 설득력
      1) 생산성
      2) 영향력

    Liked by 1명

  3. 주제를 보자마자 이건 아마 모든 학생들과 교수들의 고민일 것 같다는 생각이 들었습니다. 이 연구는 글쓰기 지원 맥락에 초점을 맞추고 있지만 프로그래밍일 때로 초점을 맞춘 연구도 후속 연구로 나오면 좋겠다는 생각이 들었습니다.

    <질문>
    Q. 사전 선별을 거친 참가자 131명이라고 했는데 어떤 선별을 거쳤는지 궁금합니다.

    Q. 인간 평가와 자동 모드(auto-pilot mide)가 정확히 무엇인지 모르겠습니다.

    Q. (본문에서 나왔는데 제가 놓친 걸 수도 있긴 하지만) 글쓰기의 품질을 어떻게 평가 했는지 궁금합니다.

    <새롭게 알게 된 개념>

    • 스캐폴딩: 학생이 과제를 수행할 때 성과를 향상 시키기 위해 일시적으로 제공되는 교수적 지원이라는 의미의 교육심리학 개념

    <기타>

    • 공립대학교 의료 시스템에 공지하여 데이터 품질 및 대표성 저하를 방지했다는 점이 눈에 띄었습니다.
    • 문장 단위 도움은 별로 도움이 되지 않는다는 것이 신기했습니다.
    • 단락 제안 모드로 춤질이 더 좋아졌음에도 만족도가 하락하는 것이 신기했음. 사용자는 결과물의 품질보다 과정에서 느낀 노력과 참여감을 중요하게 평가했다는 점이 인상 깊었습니다.
    • 하지만 결론에서 낮은 수준의 제안보다 높은 수준의 제안이 품질을 더 향상 시킬 것이라는 것도, 효율성과 사용자 경험 사이의 균형이 AI 협업 설계의 핵심이라는 것도 너무 예상 가능한 결론이었습니다.

    <오류 수정>

    • 결과 부분 5.3 생산성 단락 수준 +인데 화살표가 아래로 되어 있음!!

    Liked by 1명

  4. 최근 LLM이 발전함에 따라 많은 보고서나 과제를 AI를 활용하여 수행하는 경우가 많아졌습니다. 이러한 과제 수행 중 AI로부터 문장 단위로 피드백을 받을 때는 앞뒤 문맥의 연속성을 확보하는 데 어려움을 느껴 문단 혹은 전체 내용 재작성을 요청했던 개인적인 경험이 있습니다. 아무리 높은 품질의 내용을 받더라도 결국 제가 수정하는 과정이 많았는데, 이는 연구에서 정의한 ‘텍스트 소유감’을 느끼지 못해 만족감이 하락한 현상과 일치한다는 것을 알게 되어 흥미로웠습니다.

    영상을 보면서 몇 가지 궁금한 점이 생겼습니다. 첫 번째로 단위를 문장과 문단의 토큰을 설정한 정량적 기준과 명확한 이유가 있는지 궁금합니다. 두 번째로는 AI 지원 수준의 효과를 극명하게 파악하기 위해서는 모든 점수대의 사람들을 데려와야 할 것 같은데, 왜 2점 이상을 받은 참가자들로만 제한하여 모집했는지 궁금합니다. 1점 참가자까지 포함해야 수준 차이를 극명하게 알 수 있을 것 같았고, 비교적 낮은 점수를 기준으로 설정한 이유가 글쓰기 실력 스펙트럼을 넓히기 위함이라고 설명했지만, 왜 이러한 제한점이 존재하는지 궁금합니다. 마지막으로 기술 숙련도별 효과를 분석하기 위해 참가자들을 나눈 기준에 대해서도 알고 싶습니다.

    Liked by 1명

  5. 본 논문은 이전에 지속적으로 다루었던 인간 주도성 문제를 글쓰기 분야에 적용하여 AI의 개입이 사용자에게 어떤 영향을 미치는지 실험적으로 검증한 연구라는 점에서 흥미로웠습니다. 인간과 AI가 함께 글을 쓸 때 AI는 어느 정도까지 개입해야 하는가? 라는 질문은 글쓰기 뿐만 아니라 다양한 창작 분야에서 중요한 이슈로 계속해서 대두되고 있습니다. 1-2년 전 할리우드에서는 영화 제작 과정에서 생성형 AI가 들어오며 배우의 얼굴과 목소리를 무단으로 활용하여  AI 개입을 둘러싼 보이콧이 발생했었습니다. 반면, 최근에는 유튜브 등에서 역사적 인물의 사진과 목소리를 AI로 복원해 교육 콘텐츠로 활용하는 등 긍정적인 활용 사례도 존재합니다. 이러한 양면적인 사례를 볼 때 어떤 분야에서든 생성형 AI의 적절한 개입 수준을 설정하는 것이 필요하며, 이러한 맥락에서 본 연구의 AI 개입의 적절성을 확인하는 것은 앞으로의 AI 발전에 도움이 될 수 있는 의미 있는 주제라고 생각합니다.

    또한 이 연구에서 실험을 진행할 때 AI 개입을 확인하기 위해 AI 제안을 승인 또는 거절할 수 있도록 설계한 점이 인상깊었습니다. 이처럼 생성형 AI가 계속 발전함에 따라 이를 활용하는 데 있어서 사용자 주도권을 보존하기 위한 설계 방안 및 체계들도 함께 마련하는 것이 필요하다고 느꼈습니다.

    한편, 스케폴딩을 나눌 때 AI 지원 없음, 다음 문장 제안, 다음 단락 제안으로 나누어 실험을 수행했는데 이에 대한 구분 기준이 무엇이었는지 궁금합니다. 추가적으로 다음 단어 제안과 같은 스케폴딩도 포함된다면 작성자의 노력 정도도 인정되어 만족도가 향상되지 않았을까?하는 생각도 들었습니다.

    그리고 숙련된 작성자일수록 AI가 자신의 스타일을 침해할 수 있다는 우려 때문에 AI효과가 미미한 결론이 나왔습니다. 실제로 전문 작가들은 AI를 거의 사용하지 않아 독자들의 선호가 유지되는 것이기도 할 것입니다. 그렇다면 이러한 숙련된 작성자들의 창작의 정체성을 해치지 않아 독자들의 사랑을 계속받는 동시에 이들이 보다 편하게 글쓰기 부분에서 AI를 활용할 수 있는 방법은 무엇이 있을까? 하는 질문이 생겼습니다.

    마지막으로, 논의에서 언급된 것처럼 글의 방향성은 AI가 제공하되 창의성 부분에서는 사람이 수행하고, AI가 제공하는 양과 개입 정도는 신중하게 조절해야한다는 점에 동의합니다. 이러한 관점을 바탕으로 앞으로 AI를 어떻게 적절하게 활용할지에 대해 지속적인 고민의 자세가 필요하다고 느꼈습니다.

    Liked by 1명

  6. 가장 기억에 남는 것은 AI 지원의 ‘수준’ 차이입니다.. 단락 단위로 지원해 줄 때 글 퀄리티랑 생산성이 확 올라가는데, 문장 단위로 쪼개서 도와주면 오히려 사고의 연속성을 방해할 수 있다는 거 보고 놀랐습니다. AI는 세부적인 것보다 큰 구조를 잡아주는 역할에 강하다는 것을 느꼈습니다. 또한 품질이 높아져도 사용자의 만족도랑 소유감이 떨어진다는 역설적인 결과가 공감이 되면서도, 현실적이었습니다. 효율성만 쫓으면 안 되고, AI를 글을 대신 써주는 존재가 아니라 인간의 사고를 확장해 주는 파트너로 설계해야 한다는 것이 딱 맞는 것 같습니다.
    이 연구가 논증적 글쓰기에 한정되었다고 하니, 소설이나 시 같은 창의적인 글쓰기 장르에서는 AI 개입 효과가 어떻게 달라질지 궁금해집니다. 그리고 AI 의존성이 강화돼서 품질이 하락하는 문제는 장기적으로 어떻게 해결해야 할지 후속 연구가 시급해 보입니다.

    Liked by 1명

  7. AI의 적절한 지원 정도를 찾는 게 항상 어려운 포인트인 것 같습니다. 본 연구에서 품질은 향상되었는데, 만족도는 오히려 하락하여 결과물에 대한 만족도가 품질과 비례하지 않는다는 것이 특히 인상적이었습니다. 또한 단락단위 스캐폴딩이 하이레벨 스캐폴딩에 해당하는 수준이었는데 문장 단위보다 더 큰 효과를 보였다는 점도 흥미로웠습니다. 지원이 과하면 오히려 안좋은 결과가 나올 것 이라 예상했는데, 오히려 충분한 지원 정도가 더 긍정적인 영향을 보였다는 점에서 GPT-3 모델로 실험을 진행하였는데, 시간이 조금 지난 지금 GPT-5와 같은 최신 모델로 글쓰기 지원을 한다면 어떤 결과가 나올지 다른 결과가 나오지 않을지 궁금해집니다.

    Liked by 1명

    1. *오히려 충분한 지원이 더 긍정적인 영향을 보였다는 점에서 흥미로운 결과였습니다.

      Liked by 1명

한은정님에게 덧글 달기 응답 취소