[PAIR Guidebook] #2 데이터 + 모델 구축 (Data + Model Evolution)

부경 권
1월 27일
3분 분량

최종 수정일: 2월 9일

총 6개의 챕터로 구성된 People + AI 가이드북을 바탕으로 각 챕터의 내용을 소개합니다.

이번 글에서는 「데이터 + 모델 구축 (Data + Model Evolution)」 챕터를 다룹니다.

가이드북 링크: https://pair.withgoogle.com/guidebook/

데이터는 AI 시스템의 핵심입니다

데이터는 AI 시스템이 학습하는 예시, AI 시스템의 역량을 평가하는 기준, 그리고 AI 시스템이 세상을 표현하는 토대를 제공합니다. 그러한 의미에서 데이터는 AI 시스템의 생명줄과 같습니다. 충분하고 질 좋은 데이터가 없으면 아무리 정교한 AI 시스템이라도 효과적으로 작동하지 못합니다.

AI 개발의 각 단계에서는 서로 다른 종류의 데이터가 사용됩니다.

학습 데이터(Training Data): AI 모델에게 패턴, 관계, 개념을 가르치는 데 사용되는 주요 데이터셋입니다. 생성형 AI의 경우, 모델이 이해하고 모방하도록 학습하는 방대한 양의 텍스트, 이미지 또는 기타 미디어가 포함됩니다.
테스트 데이터(Testing Data): 학습 중에 사용되지 않은 별도의 데이터셋으로, 모델이 본 적 없는 예시에서 작 수행되는지 평가합니다. 학습 데이터를 넘어 일반화할 수 있는 모델의 능력에 대한 편향 없는 평가를 제공합니다.
검증 데이터(Validation Data): 학습 과정 중에 하이퍼파라미터를 조정하고 진행 상황을 모니터링하는 데 사용됩니다. 과적합같은 문제를 감지하고, 언제 학습을 중단할지 결정하는 데 도움이 됩니다.
튜닝 데이터(Tuning Data): 하이퍼파라미터나 모델 구성을 최적화하여 리소스 균형을 맞추고 특정 작업에서 모델 성능을 개선하는 데 사용됩니다. 생성형 AI의 경우, 인간 피드백 기반 강화학습(RLHF)이나 모델이 인간의 선호와 기대에 더 잘 부합하도록 돕는 정렬 기법에 사용되는 데이터가 포함될 수 있습니다.

데이터 캐스케이드(Data Cascades) 현상을 주의하세요. 이는 초기 데이터 품질 문제가 AI 개발 파이프라인 전체에 걸쳐 복합적으로 증폭되는 현상을 말합니다. 데이터 수집, 정제, 선택, 준비 등 각 단계에서의 선택은 AI 모델이 큰 영향을 미칩니다. 하지만 이러한 결정의 영향은 항상 명확하지 않습니다. 초기에 도입된 문제가 훨씬 나중에, 수정 비용이 커진 시점에서야 드러나거나, 사용자가 불만을 제기할 때 비로소 발견되기도 합니다.

사용자 니즈를 데이터 요구사항으로 변환하세요

학습 데이터 수집은 목표 지향적이어야 합니다. 원하는 AI 동작을 기준으로 역으로 접근하여 그러한 결과를 도출하는 데 필요한 데이터가 무엇인지 파악해야 합니다. 이를 효과적으로 수행하려면 성공적인 AI 동작이 무엇인지 정의하고 사용자 요구에 기반한 명확한 성공 기준을 설정해야 합니다. 단순히 사용 가능한 데이터를 수집하는 데 그치지 않고, AI가 무엇을 학습해야 하는지 체계적으로 평가해야 합니다.

가상의 추천형 애플리케이션 'Run'을 예시로 들어보겠습니다. AI 시스템은 특정 코스를 달리는 데 걸리는 시간과 그 코스가 얼마나 즐거울지 예측해야 합니다. 이를 위해 여러 러너들이 평가한 다양한 코스 예시들을 담은 학습 데이터셋이 필요합니다.

Examples: 데이터셋의 개별 데이터 행입니다. 이 경우 개별 달리기 코스가 예제에 해당합니다. 만약 모든 예제가 엘리트 선수들의 기록에서만 수집되었다면, AI 모델은 일반 러너에 대한 효과적인 예측을 내놓지 못할 것입니다.

Features: 각 예제를 설명하는 측정 가능한 속성입니다. 독립변수라고도 합니다. 코스 이름, 거리, 고도 변화, 완주 시간 등이 포함됩니다. 만약 고도 정보가 없다면, AI는 오르막 3마일과 내리막 3마일을 동일하게 취급할 것입니다. 하지만 실제로 둘의 체력 소모와 완주 시간은 매우 다르므로, 이 특징이 없으면 예측 정확도가 떨어집니다.

Labels: 예측하려는 목표 값입니다. 종속변수라고도 합니다. '완주 시간'과 '재미'라는 레이블은 러너들의 주관적 경험을 반영합니다. 엘리트 러너는 고난이도 코스를 '재미있다'고 평가할 수 있지만, 초보 러너는 부담을 느낄 수 있습니다. 다양한 사용자를 만족시키려면 러너의 숙련도를 나타내는 새로운 특징을 데이터셋에 추가해야 합니다.

코드 문서만큼이나 데이터와 AI 문서화도 중요합니다. 데이터셋의 출처, 적용된 작업과 변환, 수행된 분석, 시간에 따른 이력, 권장 용도 등을 기록해두면 제품 수명주기 전반에 걸쳐 다양한 이해관계자들이 더 나은 의사결정을 내릴 수 있습니다. 데이터셋 명세 문서와 모델 명세 문서를 생성하고 유지하세요. 이 문서들은 제품이 발전함에 따라 함께 진화하는 살아있는 문서로 취급해야 합니다.

데이터 소스를 결정하세요

데이터 요구사항을 정의한 후에는 데이터를 어디서, 어떻게 확보할지 결정해야 합니다. 대표적인 데이터 수집 방식은 아래와 같습니다.

기존 데이터 소스를 활용합니다:
이미 존재하는 데이터 중 사용자의 데이터 요구 사항과 일치하는 데이터를 활용하는 것입니다. 데이터는 여러 데이터 소스에서 가져와 의미 있게 결합할 수 있습니다. 지도 학습 및 비지도 학습, 생성형 AI 애플리케이션 프로토타이핑에 적합합니다.
데이터를 수집하고 주석을 답니다: 팀이나 조직에서 직접 수집하거나, 외부 소스에서 가져온 후 필요에 따라 사람이 직접 주석을 달거나 라벨을 붙인 데이터를 활용하는 것입니다. 지도 학습 및 비지도 학습, 모델 평가, 정답 데이터 설정에 적합합니다.
합성 데이터를 생성합니다: 프로그램적으로 생성된 데이터를 활용하는 것입니다. 검토 및 유효성 검사를 위해 사람 참여형 주석(Human-in-the-Loop, HITL)과정을 통해 생성될 수 있습니다. 대규모 모델 미세 조정, 데이터 시나리오 시뮬레이션, 특정 모델 문제 발견에 적합합니다.

주석자(Annotator)는 기계가 학습하도록 가르치는 사람입니다. 디자이너들이 흔히 생각하는 최종 사용자와 달리, 주석자는 그에 못지 않게 중요한 "초기"사용자입니다. 피드백을 제공하거나 데이터를 생성할 적절한 주석자 그룹을 선택하는 것은 매우 중요합니다. 각 주석자는 자신만의 고유한 방식으로 정보를 제공하고, 제공할 수 있는 데이터의 양과 유형에도 한계가 있기 때문입니다. 또한, 주석자는 종종 자신의 사회문화적 관점을 주석 과정에 반영하며, 이러한 관점과 편견은 레이블에 그대로 나타나게됩니다.

주석은 일관성있고 관련성이 높으며 AI 시스템에 적합한 형식이어야 하므로 잘 설계된 주석 워크플로우가 필수적입니다. 적절한 주석 플랫폼 및 인프라를 선택하세요. 주석자가 요청 사항을 이해하고 적절한 도구를 갖추면 정확한 데이터를 제공할 가능성이 훨씬 높아집니다.

평가를 통해 AI를 발전시키세요

평가 전략은 기술적 지표가 아닌 사용자 가치에서 시작하는 것입니다. 예를 들어, 창작 글쓰기를 위한 AI 시스템은 언어적 다양성 같은 기술적 점수뿐만 아니라 생성된 아이디어에 대한 사용자 만족도로 평가해야 합니다. 마찬가지로, 코드 생성 AI는 토큰 수준의 정확도 보다는 컴파일 및 테스트 통과율, 즉 유용성을 평가하는 것이 더 효과적입니다. 기술적 지표와 사용자 중심적 지표를 결합하면 AI의 결과물이 기술적으로 완벽할 뿐만 아니라 제품 사용자에게 기능적으로도 유용한지 확인할 수 있습니다.

평가에서 문제를 발견하면, 그 문제를 근원까지 추적하세요. 특정 데이터 특성인지, 라벨링 오류인지, 모델 파라미터인지 파악해야 합니다. 문제 해결에는 학습 데이터 분포 조정, 라벨 수정, 더 관련성 있는 데이터 수집 등이 포함될 수 있습니다.

[PAIR Guidebook] #2 데이터 + 모델 구축 (Data + Model Evolution)

데이터는 AI 시스템의 핵심입니다

사용자 니즈를 데이터 요구사항으로 변환하세요

데이터 소스를 결정하세요

평가를 통해 AI를 발전시키세요

최근 게시물

댓글