목차

1. 개요

1.1 배경

사용자가 리모컨을 사용하지 않고 TV를 제어할 수 있도록 사용자가 수행하는 5가지 손동작을 인식할 수 있는 스마트 TV의 기능을 개발하려고 합니다.

1.2 목표

TV를 제어하는 사용자의 손동작을 분류하는 AI 모델 개발

1.3 방법

Mediapipe를 이용하여 영상에서 손의 좌표를 추출하고 손을 제외한 불필요한 데이터는 제거합니다. 전처리한 영상을 프레임별로 이미지 파일로 저장하고 이미지 파일을 3D CNN 기반 VGG-Net 16, ResNet 50모델에 학습시키고 hold-out 교차검증을 통해 높은 점수(F1 score)가 나온 모델을 채택하여 Inference을 진행했습니다.

1.4 데이터

TV를 제어하는 사용자의 손동작을 분류하기 위해서 30프레임의 1초 분량의 동영상(mp4)들이 입력 데이터로 주어집니다.

Dataset Info.


TRAIN_001.gif

TRAIN_002.gif

TRAIN_019.gif

TRAIN_009.gif

TRAIN_006.gif

Class 0


스마트 TV 볼륨을 높입니다


Class 1


스마트 TV 볼륨을 낮춥니다


Class 2


스마트 TV의 재생 영상을 10초 전으로 점프합니다.


Class 3


스마트 TV의 재생 영상을 10초 앞으로 점프합니다.


Class 4


스마트 TV의 재생 영상을 중지합니다.