All Issue

2020 Vol.8, Issue 4 Preview Page

Research Article

December 2020. pp. 81-88
Abstract
월드와이드웹이 정보를 출판하는 매체로 보편화되면서 웹 문서량이 폭발적으로 증가하고 있다. 웹 문서에서 HTML 테이블은 연관된 정보를 2차원 논리적 구조로 다양하게 표현할 수 있기 때문에 중요한 정보를 표현하는 수단으로 많이 사용되고 있다. 이러한 이유 때문에 HTML 테이블에서 데이터 자동 추출 방법에 대한 관심이 증가하고 있다. 본 연구는 HTML 테이블의 데이터 자동추출 문제의 해결방법으로 웹문서를 작성할 때 HTML 테이블의 코딩규약을 준수하는 방식을 제안한다. 통상적으로 사용되는 HTML 코딩규약의 목적은 웹문서 작성시 개발자들 간에 HTML 코드의 가독성을 높이고 쉽게 이해할 수 있도록 하는 것이다. 본 연구에서 제안하는 HTML 코딩규약의 목적은 웹문서의 HTML 테이블에서 데이터를 자동추출하기 용이하도록 하기 위한 것이다. 제안된 HTML 코딩규약이 활용되어 HTML 테이블에서 데이터 자동추출이 용이해질 것으로 기대된다.
As the World Wide Web becomes more common as a medium for publishing information, the volume of web documents is exploding. In web documents, HTML tables are widely used as a means of expressing important information because related information can be expressed in various ways in a two-dimensional logical structure. For this reason, interest in the method of automatically extracting data from HTML tables is increasing. This study proposes a method of complying with the coding conventions of HTML tables when creating web documents as a solution to the problem of automatic data extraction of HTML tables. The purpose of commonly used HTML coding conventions is to improve the readability of HTML code and make it easier to understand among developers when creating web documents. The purpose of the HTML coding convention proposed in this study is to facilitate automatic extraction of data from HTML tables in web documents. It is expected that the proposed HTML coding convention will be utilized to facilitate automatic data extraction from HTML tables.
References
  1. 이은미 "HTML5가 웹 환경에 미치는 영향", 한국정보과학회지, 제29권 제6호, pp.55-60, 2011.
  2. 김연석, 이경호 "HTML 문서의 테이블 식별을 위한 효율적인 알고리즘", 멀티미디어논문지, 제7권 제10호, pp.1339-1353, 2006.
  3. J. Hu et al., "Table Structure Recognition and Its Evaluation", Proc. SPIE Document recognition and Retrieval VIII, Issue 1, pp.44-55, 2001.
  4. 김연석, 이경호 "HTML 문서의 논리적 구조 분석을 위한 효율적인 방법", 멀티미디어논문지, 제9권 제9호, pp.1231-1246, 2006.
  5. 이민형, 이경호 "웹 문서로부터 논리적 구조 추출", 멀티미디어논문지, 제7권 제10호, pp.1354-1369, 2004.
  6. Ahmed Ktob et al, "Extracting Linked Data from HTML Tables", Proceedings of 2017 3rd Int. Conf. on Collaboration and Internet Computing (CIC), pp.48-53, 2017.
  7. 장익, 최성욱 "인터프리터 언어 코딩을 위한 효과적인 학습 모형에 대한 연구", 융복합지식학회논문지, 제7권 제1호, pp.73-78, 2019.
Information
  • Publisher :The Society of Convergence Knowledge
  • Publisher(Ko) :융복합지식학회
  • Journal Title :The Society of Convergence Knowledge Transactions
  • Journal Title(Ko) :융복합지식학회논문지
  • Volume : 8
  • No :4
  • Pages :81-88