TECH 으로 돌아가기
TECH GITHUB 오늘 15분 읽기 28 READS

[심층분석] 운동 앱 백엔드를 5분 만에? 1,324개 운동 데이터셋과 '셋업 마법사'의 정체

[심층분석] 운동 앱 백엔드를 5분 만에? 1,324개 운동 데이터셋과 '셋업 마법사'의 정체

요즘 헬스장 가보면 다들 한 손에 폰 들고 운동하잖아요. "오늘 벤치프레스 60kg 5세트", "스쿼트 3세트"… 이렇게 기록하는 앱 한 번쯤은 써보셨을 거예요. 그러다 보면 개발하는 사람은 자연스럽게 이런 생각이 들거든요. "이거 나도 만들 수 있지 않을까?" 그런데 막상 시작하려고 하면 의외의 벽에 부딪혀요. 코드가 어려운 게 아니라, '운동 데이터' 자체가 없다는 거예요. 화면이랑 버튼은 어떻게든 만들겠는데, 정작 "벤치프레스는 가슴 운동이고, 바벨이 필요하고, 이렇게 저렇게 하는 거예요" 하는 알맹이 정보가 손에 없는 거죠.

이번에 소개할 exercises-dataset이라는 깃허브 저장소가 바로 그 지점을 정확히 건드리는 프로젝트예요. 1,324개나 되는 운동 정보를 깔끔하게 정리해놓은 데이터 묶음이거든요. 그런데 단순히 데이터만 툭 던져주는 게 아니라, "이 데이터로 앱 백엔드 만드는 것까지 도와줄게"라는 콘셉트라서 더 흥미로워요. 게다가 이 프로젝트 하나에 데이터셋, 다국어 처리, 그리고 요즘 가장 민감한 주제인 '데이터 저작권' 이야기까지 다 녹아 있어서, 주니어 개발자가 배울 게 정말 많아요. 오늘은 이걸 천천히 뜯어볼게요.

그래서 이 데이터셋엔 뭐가 들어 있나요?

먼저 '데이터셋(dataset)'이라는 말부터 짚고 갈게요. 이게 뭐냐면, 쉽게 말해 잘 정리된 정보 묶음이에요. 우리가 엑셀에서 보는 표 있잖아요. 행(가로줄) 하나가 운동 하나고, 열(세로줄)이 그 운동의 속성들인 거예요. 그게 데이터셋이에요. 그냥 글로 줄줄 써놓은 게 아니라, 컴퓨터가 바로 읽어서 쓸 수 있게 칸칸이 나눠놓은 정보죠.

이 데이터셋은 운동 하나하나마다 이런 정보를 담고 있어요.

많은 경우 세 번째 방식, 그러니까 검증된 데이터를 한번 받아서 내 것으로 만드는 방식이 MVP(최소 기능 제품, 일단 핵심만 빠르게 만든 시제품)에는 딱이에요. 빠르게 출발할 수 있으면서도, 외부 의존을 줄여서 안정적이거든요. 이 프로젝트가 '셋업 마법사'로 DB 스키마랑 API 코드까지 만들어주는 이유가 바로 이 길을 쉽게 걷게 해주려는 거예요.

한국 개발자에게 주는 시사점

자, 그럼 실전 이야기를 해볼게요. 만약 여러분이 사이드 프로젝트로 운동 기록 앱을 만들고 싶다고 쳐요. 예전 같으면 데이터 모으는 데만 2주는 썼을 거예요. 그런데 이런 데이터셋을 쓰면, 첫날에 바로 "화면에 운동 목록 띄우기"부터 시작할 수 있어요. 데이터 채우느라 기운 다 빼고 정작 만들고 싶던 기능은 손도 못 대는 일을 피할 수 있는 거죠.

다만 한국에서 서비스를 낼 거라면 꼭 챙길 점이 몇 가지 있어요.

1. 라이선스를 반드시 확인하세요. 앞에서 봤듯이 이미지·영상은 권리가 복잡해서 빠져 있어요. "데이터셋에 있으니 써도 되겠지"가 아니라, 상업적으로 쓸 거면 원본인 ExerciseDB 쪽 이용 약관까지 직접 확인하는 게 안전해요. 토이 프로젝트와 돈 버는 서비스는 기준이 완전히 달라요.
2. 한국어 번역을 채워 넣으세요. 6개 언어는 있는데 한국어가 없어요. 오히려 기회예요. 구조가 이미 다국어용으로 잡혀 있으니, 한국어 칸을 추가하면 국내 사용자에겐 훨씬 친절한 서비스가 돼요. 요즘은 LLM으로 1차 번역을 돌리고 사람이 다듬는 식으로 빠르게 채울 수도 있고요.
3. 데이터를 '내 것'으로 가져오되, 출처는 남기세요. 오픈 데이터를 쓸 땐 출처 표기가 기본 매너이자 안전장치예요. 이 프로젝트가 보여준 태도를 그대로 따라 하면 돼요.

학습 로드맵을 살짝 제안하자면 이래요. ① 먼저 데이터셋을 내려받아서 구조(스키마)를 눈으로 익히고요. ② 그다음 SQLite 같은 가벼운 DB에 직접 넣어보면서 "데이터를 DB에 적재한다"는 감을 잡아요. ③ 그 위에 간단한 API를 하나 올려서 "가슴 운동만 골라서 보내줘" 같은 요청을 처리해보고요. ④ 마지막으로 LLM 프롬프트를 붙여서 "오늘 등 운동 루틴 짜줘" 같은 AI 추천 기능까지 얹어보면, 데이터 → DB → API → AI로 이어지는 백엔드 흐름 전체를 운동이라는 친숙한 소재로 한 바퀴 돌게 되는 거예요. 이건 어떤 분야든 통하는 기본기라서 정말 좋은 연습이에요.

마무리

이 프로젝트가 던지는 진짜 메시지는 "운동 데이터 여기 있어요"가 아니에요. "데이터는 이제 도구와 한 묶음으로 온다"는 흐름, 그리고 "공개 데이터라고 다 마음대로 쓸 수 있는 건 아니다"라는 현실, 이 두 가지예요. 데이터셋이 단순한 파일 더미에서 벗어나 설계도와 사용 설명서까지 챙겨주는 방향으로 진화하고 있고, 동시에 출처와 권리를 투명하게 밝히는 문화가 자리잡아 가고 있는 거죠. 앞으로 좋은 오픈 데이터일수록 "바로 굴릴 수 있게 친절하게, 그리고 권리관계는 정직하게"라는 두 가지를 동시에 갖추게 될 거예요.

여러분은 어떠세요? 사이드 프로젝트 할 때 데이터를 직접 모으는 편인가요, 아니면 이렇게 잘 정리된 공개 데이터셋을 찾아 쓰는 편인가요? 그리고 공개 데이터를 가져다 쓸 때 라이선스를 어디까지 확인하시나요? 혹시 "이건 괜찮은 줄 알고 썼다가 식겁했다" 하는 경험 있으면 댓글로 나눠주세요. 다들 한 번쯤 겪는 일이라, 서로의 경험이 진짜 좋은 교과서가 되거든요.


🔗 출처: GitHub

SOURCE · GITHUB
원문 전체 보기 → https://github.com/hasaneyldrm/exercises-dataset
SHARE
처리 중...