A Clawdbot skill for fast, lightweight PDF parsing using PyMuPDF (fitz). Ideal for quick text extraction when speed matters. ./scripts/pymupdf_parse.py /path/to ...
Surya (또는 PaddleOCR Structure) 딥러닝 모델을 사용하여 텍스트, 제목, 표, 그림 등의 레이아웃 블록을 감지합니다. Column-Aware Text Sorting (다단 컬럼 인식 정렬): 다단(Multi-column)으로 구성된 학술 논문에서 텍스트가 뒤섞이는 것을 방지하기 위해, 수직 간격을 분석하여 ...
久しぶりにこのブログでDevOps系の話題を書こうと思います。 今までは、技術書執筆は Google DocsかRe:Viewを使っていました。 ReViewで本や卒論を書いてGitHub ActionsでPDFやePubを生成するテンプレート「kaitas/ReBook」 Re:Viewは Markdown風でもありTeX風でもあるので ...
一部の結果でアクセス不可の可能性があるため、非表示になっています。
アクセス不可の結果を表示する