myoung2 ec5127c15aab46a4862df5f068b3e07f
안녕하세요! 오늘은 여러분들께 광학 문자 인식에 대해 알려드리러 왔습니다.
1. 테서렉트 다운로드
광한 문자 인식을 위해 테서렉트를 다운받아야 합니다.
64비트 :
32비트 : 다운로드 페이지
여기서 Next를 눌러주세요.
Agree 눌러주시고요,
둘중 하나를 선택하시고 NEXT를 눌러주세요.
Additional Language Data를 체크해주세요.
그리고 Next를 누르고, 한번더 누르고, Install을 눌러주세요.
이제 다운이 다 될때까지 기다려주세요.
다운이 다 되면 닫아주세요.
2. 환경변수 설정
테서렉트는 환경변수를 등록해야지 사용할 수 있어요.
이 곳에 들어오셔서 (윈도우즈 검색창에 환경변수 검색)
환경변수를 눌러줍니다.
시스템 변수에서 Path를 찾아주시고 두번클릭해주세요.
새로 만들기를 누르시고,
아까 다운할때 Anyone use this computer로 설치하셨으면, 이경로로 하시면 되고요,
자신 (유저)로 하셨으면, 로하시면 됩니다.
이제 CMD창을 켜줍니다. (검색에서 명령프롭포트 혹은 cmd)
테서렉트라고 쳤을때 이렇게 나오는지 확인해줍니다.
3. 인식해보기
이제 한번 직접 인식을 해봅시다.
저는
이 사진으로 해보겠습니다. (출처 : 나무위키)
자신이 원하는 사진이 있는 폴더로 가주세요.
cd <경로> tesseract <파일명.확장명> stdout -l kor
이렇게 적어봅시다.
이런 결과가 나왔습니다.
생각보다 정확하지만, 영어를 인식하지 못했기에 아쉬움이 남았습니다.
그러니 한번 영어를 인식해봅시다.
tesseract <파일명.확장자> stdout -l kor+eng # -l은 language(언어)를 뜻함 #kor = korean, eng = english
이렇게 바꿔서 하면,
이런식으로 영어도 인식하는것을 볼 수 있습니다.
이제 한번 이걸 파일로 내보내 봅시다.
tesseract <파일명.확장명> stdout -l kor+eng > <내보낼 파일명.확장자> 예) tesseract img.jpg stdout -l kor+eng > text.txt
이제 한번 해보겠습니다.
이번에는 다른 글자 없이 이것만 나오고 끝났습니다.
근데 그 경로로 가니, 라는 문서를 발견했습니다.
열어보니 이런식으로 나왔습니다.
성공적입니다.
이번에는 이 파이썬 코드를 한번 인식시켜보겠습니다.
def ratio(preceding: int, latter: int): ead a eat estes User ee yas a Reema a EI (sces eto def _ init__(self): super().__init__(‘2t0| O|AHEHLICt.") fae Cle ke def smaller(ratio: str): aa let arte ye eerste) bheaar ni, n2 = int(pl[o]), int(pl[1]) sn = UC(n1, n2) Oy aU) n2 /= sn nl = F2Int(n1, n2) ist ear pet) ea pe eee te)
생각보다 정확하게 나왔습니다.
물론 들여쓰기같은것들은 1도 안되어있었지만...
def나 __init__, int같은게 잘 나온것을 볼 수 있습니다.
import문은 내가 일부로 뺏습니다.
오늘은 테서렉트를 이용해 OCR를 해봤는데 괜찮았나요?
괜찮았길 바라며 그럼 즐코하세요!
4. 번외
참고로 테서렉트는 많은 프로그래밍 언어를 지원합니다. (Java, Python등)
댓글이 없습니다.
새로운 댓글을 등록해 주세요!