저희는 Python으로 짜여진 AI 모델을
fp8
, int8
, fp4
) 커널 최적화
등 Memory bandwidth cost와 overhead를 줄이는 방법을 연구하고자 합니다.
2023년 부터 시작되어 55명이 넘는 분들이 참여했으며, GPU 클라우드 서비스인 DataCrunch로부터 A100, H100를 지원받아 실질적인 성과를 낸 연구와 프로젝트를 진행해 왔습니다.
OpenAI를 포함한 많은 기업은 논문에선 생략해 둔 수많은 low-level optimization으로 성능을 개선하고 있기 때문에, 이러한 기술이 더욱 희소하고 언급되고 있지 않은 것 같습니다. 이러한 기술에 가치를 알고 함께 공부하고자 하는 분들을 모으고자 스터디원을 모집합니다!
3기 스터디는 다음과 같이 진행되며