HWP to HTML&LaTeX Converter

HWP to HTML&LaTeX Converter

Project Info:

HWP to HTML&LaTeX Converter는 한컴오피스의 한글 워드프로세서로 작성한 파일을 HTML 코드로 변환시키는 프로그램입니다. 한글 워드프로세서의 수식은 LaTeX 포맷의 수식으로 변환되며 MathJax나 KaTeX 등의 렌더링 엔진을 통해 웹 브라우저에서 볼 수 있습니다. 표는 HTML 코드로 변환되며 이미지는 별도로 추출되어 저장됩니다.

본 프로그램은 크게 수식을 변환하는 부분과 수식을 제외한 다른 내용을 변환하는 부분으로 이루어집니다. 수식을 변환하는 부분은 (주)바풀 에서 오픈소스로 공개한 Python 기반 한글 워드프로세서 수식 파서를 개량하여 제작되었습니다. 오픈소스로 공개한 코드에서는 제대로 파싱할 수 없지만 한글 워드프로세서에서는 정상적으로 인식하는 수식들을 최대한 파싱할 수 있도록 개선하여 수능 수학 시험지를 기준으로 약 98% 이상의 정확도를 보장합니다. 수식을 제외한 다른 내용을 변환하는 부분은 C#으로 작성되었습니다. 전체 프로그램은 C#으로 작성되었고, C# 코드 내부에서 Python 스크립트를 실행하는 방식으로 수식 변환이 이루어집니다.

현재는 한글 워드프로세서에서 수학과 관련된 문서를 편집할 때 가장 많이 사용되는 기능인 수식, 표, 글상자, 이미지를 정확하게 변환하고 추출하는 데 기능의 초점이 맞춰져 있습니다.

  • 진행 기간: 2017/03 - 2017/04
  • 완료 여부: 완료(후속 개발 예정)
  • 기여도: 100%
  • 관련 기술: C# / Python