Open Access System for Information Sharing

Login Library

 

Thesis
Cited 0 time in webofscience Cited 0 time in scopus
Metadata Downloads

산업에서 딥 러닝 기반의 텍스트 spotting 알고리즘

Title
산업에서 딥 러닝 기반의 텍스트 spotting 알고리즘
Authors
구교권
Date Issued
2020
Publisher
포항공과대학교
Abstract
본 논문은 텍스트 spotting 알고리즘들에 관한 것이다. 텍스트 spotting 이란 텍스트 탐지 (detection)와 인식 (recognition)을 합친 것을 의미한다. 컴퓨터 비전 분야에서 텍스트 spotting은 영상의 이해을 위해 필수적인 것 중 하나이다. 요즘 컴퓨터 비전 분야에서 딥러닝이 큰 성공을 이루고 있다. 그래서 딥러닝을 활용한 텍스트 spotting 알고리즘들이 많이 연구되어 왔다. 한편, 산업 분야에서 공장자동화을위해서는 제품을 식별하여야 한다. 이를 통해 서 제품의 실시간 추적을 통해서 효율적인 제품 관리와 생산을 할 수 있다. 이러한 제품 식별을 위해서 제품은 고유의 제품번호를 가진다. 철강 산업에서도 공장 자동화를 위한 제품 번호 인식이 매우 중요하다. 빌렛과 같은 반제품은 최종 제품을 위한 공정 전에 식별되어야 한다. 겉보기에는 비슷하게 생겼지만 고객의 요구에 따라 다른 성분을 가지기 때문에 섞이게 된다면 큰 손실이 발생하게 된다. 빌렛은 단면이 사각형인 긴 바 형태의 철강 반제품이다. 그리고 그 단면에 빌렛 식별 번호가 적혀 있다. 그래서 빌렛은 컨베이어 벨트로 옮겨져서 다음 공정으로 전달되는데, 그 때 빌렛의 단면 영상은 획득된다. 이를 식별하여 원하는 빌렛이 전달되는지를 확인한다. 영상에서의 빌렛 식별 번호는 다양한 방향으로 회전되고 긁힘이나 번짐 등이 발생할 수 있다. 그리고 빌렛 식별 번호는 페인트형과 스티커형으로 나뉜다. 그 중에서 스티커형 빌렛 식별 번호는 발생빈도가 적어서 데이터량이 적다. 그래서, 본 논문에서 빌렛 식별 번호 인식을 위한 딥러닝을 활용한 2 가지 텍스트 spotting 알고리즘들을 제안하였다. 첫번째 알고리즘은 회전하지 않은 빌렛 식별 번호를 학습한 네트워크를 활용한다. 그리고 이를 활용하여 빌렛 식별 번호를 인식하기 위해서 interpretation과 sticker extraction 모듈을 설계하였다. 후보가 될 수 있는 4가지 방향으로 영상을 페인트형 회전되지 않은 빌렛 식별 번호를 학습한 네트워크의 입력으로 한다. 그 출력들로부터 나온 인식 결과와 인식 점수를 가지고 최종 빌렛 식별번호가 추정된다. 또한 부족한 스티커형 빌렛 식별번호를 학습하기 위해서 유사 스티커를 만들어서 data augmentation을 했다. 마지막으로 네트워크 구조의 최적화와 transfer learning을 적용하였다. 8일 동안 실제 현장에 적용 했을 때 99.58848 %의 정확도를 보였다. 하지만 첫번째 알고리즘은 계산량이 무겁고 파라미터 설계에 따라 다른 성능이 나올 수 있다. 그래서 두번째 알고리즘으로 하나로 통합된 뉴럴 네트워크를 제안하였다. 빌렛 식별 번호에서 각 문자마다 종류와 순서는 빌렛이 회전하여도 변하지 않고 이 2가지 정보로부터 빌렛 식별 번호를 추정할 수 있다. 이것은 기반으로 하나의 영상으로부터 2가지 출력을 가지는 네트워크를 제안하였다. 하나는 각 문자의 종류에 관한 것이고, 다른 하나는 각 문자의 빌렛 식별번호에서의 순서 또는 위치에 관한 것이다. 이 네트워크는 깊이나, fusion, dropout, group normalization에 대해서 최적화 되었다. 그 결과로 페인트형, 스티커형 빌렛 식별 번호에 대해서 각각 99.372 %, 99,793 % 로 첫번째 알고리즘 98.991 %, 98.551 % 보다 좋은 인식률을 보였다.
In this thesis, deep learning-based text spotting algorithms are studied to identify product identification number which is rotated with various angles. To demonstrate the validity of two text spotting algorithms, a billet identification number (BIN) data set is used. The BIN is a product number that is given to discriminate against the wanted product from the others because of similar shapes of billets. Before final or next process, BIN should be checked to prevent mixing billets of different material. There are two types of BINs such as paint type and sticker type. In addition, the BIN comprises seven to nine alphanumeric characters except the letters I and O. The BIN may be rotated with various angles. The first algorithm used a deep learning network that was trained with non-rotated product numbers. The network is fed with candidate images including a non-rotated product number. And then, the output with the largest score results as the estimated product number. Specifically, interpretation and sticker extraction modules are developed. Furthermore, the fully convolutional network (FCN) with deconvolution layer is used and optimized. To increase the BIN recognition accuracy, the FCN was simulated for various structures and was transferred from the pre-trained model. The BIN is identified by the trained FCN model and interpretation module. If the BIN is sticker-type, it is inferred after the sticker region is extracted by the sticker extraction module. The accuracy of the proposed system was shown to be approximately 99.59 % in an eight-day period. While the first algorithm used a deep neural network as a component, the second algorithm was focused on a deep neural network. A product number is determined not only by the classes of individual characters but also by their order. Furthermore, the classes and order of individual characters are invariable even when the product number is rotated. Inspired by this concept, a novel deep neural network framework was proposed. The proposed network had two outputs. One is for the classes of individual characters, and the other is for the order of individual characters (or positioning within the product number). As compared with the first algorithm, the proposed network requires one more annotation but does not require additional labor for labeling. The multi-task for two annotations plays a positive role in the representation learning of a network. It is shown in the experimental result. Furthermore, to achieve good performance of the BIN identification, we analyzed various networks of the proposed framework. And then the second algorithm was compared with the first algorithm to evaluate the performance of the BIN identification.
URI
http://postech.dcollection.net/common/orgView/200000286521
https://oasis.postech.ac.kr/handle/2014.oak/111021
Article Type
Thesis
Files in This Item:
There are no files associated with this item.

qr_code

  • mendeley

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Views & Downloads

Browse