OCR과 STT란?

OCR은 ‘광학 문자 인식’(Optical Character Recognition)의 약자이다.

이 기술은 이미지에서 글자를 인식하여 편집 가능한 텍스트로 변환하는 과정을 말한다.

예를 들어, 스캔된 문서나 사진 속의 텍스트를 디지털 형태로 변환할 때 사용된다.

OCR 기능을 직접 구현할 능력과 시간이 부족했기에 Google Cloud Platform에서 제공하는 Vision API를 사용하기로 결정하였다.


STT란 ‘음성 인식’(Speech to Text) 기술을 의미하며, 말로 된 언어를 텍스트로 변환하는 과정이다.

사람들이 음성만으로 정보를 입력할 수 있도록 도와준다.

STT 기능 또한 직접 구현할 능력과 시간이 부족했기에 Google Cloud의 Speech-To-Text API를 사용하기로 결정하였다.



이를 이용하면, 영수증에 있는 텍스트를 추출하여 식재료를 사용자의 냉장고 DB에 추가하는 기능을 구현할 수 있다.

또한 사용자의 음성 데이터만으로 식재료를 사용자 냉장고 데이터베이스에 추가할 수 있다.


Google Cloud Platform Vision API

GCP_OCR

Google Cloud Platform의 OCR API는 Google Cloud Vision API의 일부로 제공된다.

이 API는 이미지 내의 텍스트를 강력하고 정확하게 인식할 수 있게 해주며, 문서 스캔과 이미지 기반 데이터 추출에 매우 유용하다.

이에 대한 Google Cloud Platform 설정과 스프링 부트에서 간단히 적용하는 방법은 여기에 정리해 두었다.


이 프로젝트에선 영수증 사진을 인식해야하기 때문에 영수증을 찍어 테스트하였다.


OCR 테스트 결과

OCR_TEST2

위 영수증에 대한 OCR 결과는 아래와 같다.

교환/환불 구매점에서 가능(결제카드지참)
체크카드/신용카드 청구취소 반영은
최대 3~5일 소요 (주말,공휴일제외)
[현금 (소득공제)
]
[구매
]2016-09-01 18: 32
POS:
상품명
단가 수량 금액
01
띠 모스카토 750m
9,
800
19,
800
02 스믹스 보드카 700ml
6,
980 1
6,
980
03 생삼치(20S)
3,
400 1
3,
400
04 (990) 깐마늘
990 1
990
05
(990) EF양파
990 1
990
06 어린잎&믹스채소
3,
580 1
3,
580
07* 한끼에하나씩양상추
4,
980 1
4,
980
(★)면세물품
13,
940
과세물품
15,
255
부가세
1,
525
합
계
30,
720
결제대상금액
30,
720
자사 상품권:
자사 상품권: 00005 시하
5,
000
5,
000

이렇게 인식한 텍스트를 기반으로 식재료 이름(감자, 양파, 김치 등) 을 찾아서 냉장고 DB에 식재료를 추가하고, 이를 바탕으로 레시피를 추천할 수 있는 기능을 개발할 예정이다.


Google Cloud Speech-to-Text API

GCS

Google Cloud Speech-to-Text API는 구글이 제공하는 클라우드 기반 음성 인식 서비스로, 사용자의 오디오를 텍스트로 변환해 준다.
이 API는 매우 다양한 음성 인식 기능을 제공하며, 개발자들이 애플리케이션에 쉽게 통합할 수 있도록 설계되었다.


STT 테스트 결과

댓글남기기