5주차 회고록
학습 내용
Computer Vision
- CNN Visualization
- AutoGrad
- Instance panoptic segmentation
- Image Generation
- Conditional Generative Model
- Multi-modal
- Image Captioning
- text2image
- 3D Understanding
- Vision Transformer
피어세션
- Level 2-3 팀원 구성과 아이디어에 대한 피드백 진행
- 과제 리뷰
- 과제 종료 후 성능비교
이벤트 세션
- 스페셜 피어세션
- 타 팀원간의 미팅 진행
- 팀 구성과 아이디어 공유
- Git 특강
- Egoing님의 Git 특강 진행
- 멘토 클래스
- 모델 경량화 기법 제시
- 마스터 클래스
- Deeplearning 이용 팁 전수
- 진로를 위한 시장 분석
- 오피스 아워
- Clip 라이브러리에 대한 깊은 이해
추가 활동
- Dacon 대회의 방향성 상실
- 차주의 ai stage를 통한 부스트캠프 실전대회 및 금주의 학습 내용 난이도에 따른 Dacon 대회 참여 불가 상태
- ai stage 대회에 더 집중할 예정
회고
몰랐는데, Git 강의를 해주신 Egoing님이 생활코딩님이셨다. Frontend 관련하여 유튜브에서 영상을 몇개 본 적이 있는데, 뭔가 연예인을 보는 것 처럼 신선하고 놀라웠다.
이전엔 카일스쿨, 이번엔 생활코딩.. 내심 코딩애플님도 볼 수 있을까 기대하고 있지만, 코딩애플님은 트렌디한 api를 주로 제안하셔서 보기 힘들 것 같다.팀 구성을 진행하다가 한 캠퍼님의 말씀이 크게 와닿았다.
과거 경진대회, 학술대회에서 Video/Action Recognition을 주로 다루어서 관심분야를 Video쪽으로 가지고 있었다.
하지만 기존에 이용한 도메인이 아니라 더 넓고 다양한 도메인을 다뤄볼 수 있는 기회가 Boostcamp의 특권이라고 생각하게 되었다.이번 주 학습과 과제를 통해 Vision 분야에 시야가 크게 확보된 것 같아서 많이 뿌듯하다.
하지만, 지금 내가 이해한 내용들이 강의를 통해서라면 해당 강사는 더 넓은 시야를 가지고 있다고 생각한다.
또한, Transformer의 이론은 이해하였지만, 특히 DETR과 같은 Annotating task에서 말이 안된다고 느껴졌다.
어떻게 이미지 패치를 통해서 object를 구분할 수 있는지, 패치에서 만약 object가 분리됐다면, 객체로 인식하는 기준이 이해가 가지 않는다. 기회가 된다면 해당 내용을 더 깊게 알아보고자 한다.Multi-Modal 과제를 통해 ViT성능이 우수한 것을 크게 와닿았고, 범용성도 우수하다는 것을 이해하였다.
transformer 모델이 나온지 어느덧 5년 가까이 되었는데, 연구가 활발히 진행되고 있다.
늦긴 하였지만, 추세에 최대한 따라가고자 하는 마음이 커졌다.