Skip to content

[책] Building Machine Learning Pipelines 살아 움직이는 머신러닝 파이프라인 설계 #8

@SAgiKPJH

Description

@SAgiKPJH

머리말

  • 컴퓨팅 성능에 기반한 인공지능(AI leveraging computation)
    • 컴퓨터 성능에 기반한 인공지능
    • 범용 인공지능
  • 인공지능 회사의 핵심 역량은 탐색학습
  • 인공지능 프로젝트의 미래
    • 인공지능 비즈니스, 프로젝트 메니저가 문제 정의, 프로젝트 등록
    • AutoML 수행하는 인공지능 에이전트가 문제 확인
    • 리소스 사용량 컨펌
    • 에이전트 스스로 모델 디자인
    • 피처 엔지니어링 사용하여 사용 기능 정의
    • 하이퍼파라미터 최적화
    • 모델 평가
    • 모델 배포
    • 라이브 모델 성능 지속 모니터링
  • 문제를 정의해주고 데이터와 목푯값을 정해주면 된다.
  • 모델 아키텍쳐와 개념에 대한 표준화가 부족.
  • 이 책을 통해 자동화 모델을 만드는 표준화된 머신러닝 시스템 구축 방법 보여준다.

머신러닝 파이프라인

  • 데이터 과학자와 머신러닝 엔지니어가 개발 속도를 높이고, 재사용하고, 관리 및 배포하는 데 활용할 개념과 도구에 좋은 자료가 부족
  • 필요한 것은 머신러닝 파이프라인의 표준화
  • 문제점
    • 머신러닝 프로젝트는 시간이 지나면서 성능이 저하
    • 기본 데이터가 변경되었을 때 오류를 수정하는데 많은 시간 할애
    • 모델이 널리 사용되지 않는 일회성 작업으로 변한다

파이프라인의 단계

  • 데이터 효율적으로 버전화, 세로운 모델 학습 실행 시작
  • 새로운 데이터 유효성을 확인, 데이터 드래프트 확인
  • 모델 학습 및 검증, 데이터 효율적 전처리
  • 모델 효과적 학습
  • 모델 학습 추적
  • 학습, 튜닝모델 분석 검증
  • 검증 모델 배포
  • 스케일링
  • 피드백 루프 -> 새로운 학습 데이터 수집 및 성과 지표 모델링

추천 책

  • 딥러닝의 정석(한빛미디어 2018)
  • 핸즈온 머신러닝(한빛 미디어 2020)

대상 독자

  • 데이터 과학자와 머신러닝 엔지니어
  • 데이터 과학 프로젝트 관리자, 소프트웨어 개발자, 데브옵스 엔지니어
  • 툴체인 소개

Tensorflow, TFX 사용 이유

  • TFX : Tensorflow Extended
  • 광범위 사용 가능 및 지원 라이브러리 포함
  • 커뮤니티 활성화
  • 사용 사례 광범휘
  • 오픈소스, 사용에 제한 없음

장 소개

  1. 머신러닝 파이프라인
  2. TFX
  3. 수집
  4. 검증
  5. 전처리
  6. 학습
  7. 분석, 검증
  8. 배포
  9. 고급 모델 배포
  10. 고급 TFX
  11. 파이프라인 1부
  12. 파이프라인 2부
  13. 피드백 루프
  14. 데이터 개인 정보 보호
  15. 미래

Metadata

Metadata

Assignees

Labels

No labels
No labels

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions