러닝머신 하는 K-공대생
TOBDA App 개발 근황 본문
0. Intro
이전에 Tensorflow Korea에서 시각장애인의 보행을 돕는 프로젝트를 진행하신 윤기님의 연구를 봤고 매우 인상깊었는데 이에 아이디어를 얻어서 공간정보를 음성말고 효과적으로 전달할 수 있는 방법이 없을까 프로젝트를 진행하고있는데 곧 있을 중간 고사 이전에 중간 결과를 공유하고자 올립니다.
어떻게 하면 공간을 쉽게 알려줄 수 있을까 고민하다 bird eye view로 위에서 내려다보는 것처럼 스마트폰 화면위에 촉각지도를 만들어서 직접 톺아보면서 이동가능한 영역을 파악할 수 있게 하자는 것이 TOBDA 앱의 아이디어입니다.
기숙사 학교에 살고 있기에 대상은 교내로 한정했습니다. 복도 사진을 찍어서 라벨링하고 U-net 아키텍쳐 기반으로 세그멘테이션 모델을 학습시키고, Depth Estimation 모델로 상대적인 Depth 정보를 얻어서 월드좌표로 변환해 대응점을 찾고 Homography 행렬을 계산해서 RGB-d 카메라 및 Ridar 센서 없이 Bird eye view를 얻어낼 수 있었습니다.
결과를 보면 잘 안되는 경우가 많은데 그래도 제 생각이 어느정도 가능함을 확인할 수 있었습니다. 주 원인은 mask가 제대로 안나오거나 depth 정보가 부정확해서 오류가 많이 발생하는 것 같아 학습 데이터 추가하고 depth estimation 모델도 rgbd 카메라로 데이터 추가해서 학습시켜봐야 할 것 같습니다... 그래도 뭔가 결과가 나와서 신나네요!
1. Depth Estimation
Depth Estimation was carried out using MiDas, a model learned from datasets targeting indoor spaces.
2. Semantic Segmentation
We made a dataset from the hallway of our high school and trained U-net for Semantic Segmentation.
- Dataset: https://www.kaggle.com/taegukang0305/semantic-hallway-dataset
- Unet Notebook: https://github.com/taegukang35/device_for_blind/blob/main/hallway_unet_best.ipynb
- Video: https://www.youtube.com/watch?v=ZjD5f1sja1A&ab_channel=TaeguKang
3. Real World Mapping From Depth Map
We matched a image pixel (u,v,d) to a point cloud (x,y,z) of the real world based on camera's properties and geometric relationships.
- More information: https://medium.com/yodayoda/from-depth-map-to-point-cloud-7473721d3f
4. Select points from image
In order to find the transformation matrix, you need to know the correspondence of four points. If you just choose randomly, it will be difficult to find a suitable transformation matrix.
5. Bird Eye View Transform
I matched a image pixel (u,v,d) to a point cloud (x,y,z) of the real world based on camera's properties and geometric relationships. I integrated the last steps (semantic segmentation, depth estimation, real world mapping) to obtain a transformation matrix and converted image into bird eye view.
6. TOBDA App Protoytype
In a bird eye view situation in a particular situation, we developed an app that vibrates when I touch something other than the corridor area, and wanted to get advice on whether this information would actually help me understand the space.
7. Conclusion
주소창 결선에 진출했는데 중간고사랑 일정이 겹처 준비를 많이 못하게되어 아쉽지만 2학년 2학기 끝까지 이 앱개발을 진행해보고자 합니다. 컴퓨터 비전 및 딥러닝 쪽은 경험이 있으나 앱개발 쪽은 부족하여 같이 진행하는 팀원들과 같이 공부해가며 마무리해가고 싶습니다.
진행중인 앱 개발 소식은 제 유튜브와 GitHub에서 확인할 수 있습니다.
https://github.com/paull04/tobda
'Project' 카테고리의 다른 글
Graph-Cut 을 이용한 영상 분할 구현 (1) | 2023.02.12 |
---|---|
내가 과학고에서 뭐했더라 (0) | 2022.07.21 |
톺다(TOBDA), 시각장애인의 진정한 독립보행을 돕다 (0) | 2021.08.10 |
두 과고생의 뜨거운 도전, 2020 캔위성 경연대회 (2) | 2021.04.03 |