xgen_doc2chunk Processing Flow

Main Flow

User calls: processor.extract_chunks(file_path)
                    ??
                    ??
         DocumentProcessor.extract_chunks()
                    ??
                    ?œâ???extract_text()
                    ??      ??
                    ??      ?œâ???_create_current_file(file_path)
                    ??      ?œâ???_get_handler(extension)
                    ??      ?œâ???handler.extract_text(current_file)
                    ??      ?”â???OCR processing (optional)
                    ??
                    ?”â???chunk_text()
                            ??
                            ?”â???create_chunks()

PDF Handler Flow

PDFHandler.extract_text(current_file)
    ??
    ?œâ???file_converter.convert(file_data)               [INTERFACE: PDFFileConverter]
    ??      ?”â???Binary ??fitz.Document
    ??
    ?œâ???preprocessor.preprocess(doc)                    [INTERFACE: PDFPreprocessor]
    ??      ?”â???Pass-through (returns PreprocessedData with doc unchanged)
    ??
    ?œâ???metadata_extractor.extract()                    [INTERFACE: PDFMetadataExtractor]
    ??
    ?œâ???_extract_all_tables(doc, file_path)             [INTERNAL]
    ??
    ?”â???For each page:
            ??
            ?œâ???ComplexityAnalyzer.analyze()            [CLASS: pdf_complexity_analyzer]
            ??      ?”â???Returns PageComplexity with recommended_strategy
            ??
            ?œâ???Branch by strategy:
            ??      ??
            ??      ?œâ???FULL_PAGE_OCR:
            ??      ??      ?”â???_process_page_full_ocr()
            ??      ??
            ??      ?œâ???BLOCK_IMAGE_OCR:
            ??      ??      ?”â???_process_page_block_ocr()
            ??      ??
            ??      ?œâ???HYBRID:
            ??      ??      ?”â???_process_page_hybrid()
            ??      ??
            ??      ?”â???TEXT_EXTRACTION (default):
            ??              ?”â???_process_page_text_extraction()
            ??                      ??
            ??                      ?œâ???VectorTextOCREngine.detect_and_extract()
            ??                      ?œâ???extract_text_blocks()           [FUNCTION]
            ??                      ?œâ???format_image_processor methods  [INTERFACE: PDFImageProcessor]
            ??                      ?”â???merge_page_elements()           [FUNCTION]
            ??
            ?”â???page_tag_processor.create_page_tag()    [INTERFACE: PageTagProcessor]

DOCX Handler Flow

DOCXHandler.extract_text(current_file)
    ??
    ?œâ???file_converter.validate(file_data)              [INTERFACE: DOCXFileConverter]
    ??      ?”â???Check if valid ZIP with [Content_Types].xml
    ??
    ?œâ???If not valid DOCX:
    ??      ?”â???_extract_with_doc_handler_fallback()    [INTERNAL]
    ??              ?”â???DOCHandler.extract_text()       [DELEGATION]
    ??
    ?œâ???file_converter.convert(file_data)               [INTERFACE: DOCXFileConverter]
    ??      ?”â???Binary ??docx.Document
    ??
    ?œâ???preprocessor.preprocess(doc)                    [INTERFACE: DOCXPreprocessor]
    ??      ?”â???Returns PreprocessedData (doc in extracted_resources)
    ??
    ?œâ???chart_extractor.extract_all_from_file()         [INTERFACE: DOCXChartExtractor]
    ??      ?”â???Pre-extract all charts (callback pattern)
    ??
    ?œâ???metadata_extractor.extract()                    [INTERFACE: DOCXMetadataExtractor]
    ??
    ?”â???For each element in doc.element.body:
            ??
            ?œâ???If paragraph ('p'):
            ??      ?”â???process_paragraph_element()     [FUNCTION: docx_helper]
            ??              ?œâ???format_image_processor.process_drawing_element()
            ??              ?œâ???format_image_processor.extract_from_pict()
            ??              ?”â???get_next_chart() callback for charts
            ??
            ?”â???If table ('tbl'):
                    ?”â???process_table_element()         [FUNCTION: docx_helper]

DOC Handler Flow

DOCHandler.extract_text(current_file)
    ??
    ?œâ???file_converter.convert()                        [INTERFACE: DOCFileConverter]
    ??      ??
    ??      ?œâ???_detect_format() ??DocFormat (RTF/OLE/HTML/DOCX)
    ??      ??
    ??      ?œâ???RTF: file_data (bytes) ë°˜í™˜             [Pass-through]
    ??      ?œâ???OLE: _convert_ole() ??olefile.OleFileIO
    ??      ?œâ???HTML: _convert_html() ??BeautifulSoup
    ??      ?”â???DOCX: _convert_docx() ??docx.Document
    ??
    ?œâ???preprocessor.preprocess(converted_obj)          [INTERFACE: DOCPreprocessor]
    ??      ?”â???Returns PreprocessedData (converted_obj in extracted_resources)
    ??
    ?œâ???RTF format detected:
    ??      ?”â???_delegate_to_rtf_handler()              [DELEGATION]
    ??              ?”â???RTFHandler.extract_text(current_file)
    ??
    ?œâ???OLE format detected:
    ??      ?”â???_extract_from_ole_obj()                 [INTERNAL]
    ??              ?œâ???_extract_ole_metadata()
    ??              ?œâ???_extract_ole_text()
    ??              ?”â???_extract_ole_images()
    ??
    ?œâ???HTML format detected:
    ??      ?”â???_extract_from_html_obj()                [INTERNAL]
    ??              ?œâ???_extract_html_metadata()
    ??              ?”â???BeautifulSoup parsing
    ??
    ?”â???DOCX format detected:
            ?”â???_extract_from_docx_obj()                [INTERNAL]
                    ?”â???docx.Document paragraph/table extraction

RTF Handler Flow

êµ¬ì¡°: Converter??pass-through, Preprocessor?�ì„œ binary ì²˜ë¦¬, Handler?�ì„œ ?œì°¨??ì²˜ë¦¬.

RTFHandler.extract_text(current_file)
    ??
    ?œâ???file_converter.convert()                        [INTERFACE: RTFFileConverter]
    ??      ?”â???Pass-through (returns raw bytes)
    ??
    ?œâ???preprocessor.preprocess()                       [INTERFACE: RTFPreprocessor]
    ??      ??
    ??      ?œâ???\binN tag processing (skip binary data)
    ??      ?œâ???\pict group image extraction
    ??      ?”â???Returns PreprocessedData (clean_content, image_tags, encoding)
    ??
    ?œâ???decode_content()                                [FUNCTION: rtf_decoder]
    ??      ?”â???bytes ??string with detected encoding
    ??
    ?œâ???Build RTFConvertedData                          [DATACLASS]
    ??
    ?”â???_extract_from_converted()                       [INTERNAL]
            ??
            ?œâ???metadata_extractor.extract()            [INTERFACE: RTFMetadataExtractor]
            ?œâ???metadata_extractor.format()
            ??
            ?œâ???extract_tables_with_positions()         [FUNCTION: rtf_table_extractor]
            ??
            ?œâ???extract_inline_content()                [FUNCTION: rtf_content_extractor]
            ??
            ?”â???Build result string

Excel Handler Flow (XLSX)

ExcelHandler.extract_text(current_file) [XLSX]
    ??
    ?œâ???file_converter.convert(file_data, extension='xlsx')  [INTERFACE: ExcelFileConverter]
    ??      ?”â???Binary ??openpyxl.Workbook
    ??
    ?œâ???preprocessor.preprocess(wb)                     [INTERFACE: ExcelPreprocessor]
    ??      ?”â???Returns PreprocessedData (wb in extracted_resources)
    ??
    ?œâ???_preload_xlsx_data()                            [INTERNAL]
    ??      ?œâ???metadata_extractor.extract()            [INTERFACE: XLSXMetadataExtractor]
    ??      ?œâ???chart_extractor.extract_all_from_file() [INTERFACE: ExcelChartExtractor]
    ??      ?”â???format_image_processor.extract_images() [INTERFACE: ExcelImageProcessor]
    ??
    ?”â???For each sheet:
            ??
            ?œâ???_process_xlsx_sheet()                   [INTERNAL]
            ??      ?œâ???page_tag_processor.create_sheet_tag()  [INTERFACE: PageTagProcessor]
            ??      ?œâ???extract_textboxes_from_xlsx()   [FUNCTION]
            ??      ?œâ???convert_xlsx_sheet_to_table()   [FUNCTION]
            ??      ?”â???convert_xlsx_objects_to_tables()[FUNCTION]
            ??
            ?”â???format_image_processor.get_sheet_images()  [INTERFACE: ExcelImageProcessor]

Excel Handler Flow (XLS)

ExcelHandler.extract_text(current_file) [XLS]
    ??
    ?œâ???file_converter.convert(file_data, extension='xls')   [INTERFACE: ExcelFileConverter]
    ??      ?”â???Binary ??xlrd.Book
    ??
    ?œâ???preprocessor.preprocess(wb)                     [INTERFACE: ExcelPreprocessor]
    ??      ?”â???Returns PreprocessedData (wb in extracted_resources)
    ??
    ?œâ???_get_xls_metadata_extractor().extract_and_format()   [INTERFACE: XLSMetadataExtractor]
    ??
    ?”â???For each sheet:
            ??
            ?œâ???page_tag_processor.create_sheet_tag()   [INTERFACE: PageTagProcessor]
            ??
            ?œâ???convert_xls_sheet_to_table()            [FUNCTION]
            ??
            ?”â???convert_xls_objects_to_tables()         [FUNCTION]

PPT Handler Flow

PPTHandler.extract_text(current_file)
    ??
    ?œâ???file_converter.convert(file_data, file_stream)  [INTERFACE: PPTFileConverter]
    ??      ?”â???Binary ??pptx.Presentation
    ??
    ?œâ???preprocessor.preprocess(prs)                    [INTERFACE: PPTPreprocessor]
    ??      ?”â???Returns PreprocessedData (prs in extracted_resources)
    ??
    ?œâ???chart_extractor.extract_all_from_file()         [INTERFACE: PPTChartExtractor]
    ??      ?”â???Pre-extract all charts (callback pattern)
    ??
    ?œâ???metadata_extractor.extract()                    [INTERFACE: PPTMetadataExtractor]
    ?œâ???metadata_extractor.format()                     [INTERFACE: PPTMetadataExtractor]
    ??
    ?”â???For each slide:
            ??
            ?œâ???page_tag_processor.create_slide_tag()   [INTERFACE: PageTagProcessor]
            ??
            ?”â???For each shape:
                    ??
                    ?œâ???If table: convert_table_to_html()       [FUNCTION]
                    ?œâ???If chart: get_next_chart() callback     [Pre-extracted]
                    ?œâ???If picture: process_image_shape()       [FUNCTION]
                    ?œâ???If group: process_group_shape()         [FUNCTION]
                    ?”â???If text: extract_text_with_bullets()    [FUNCTION]

HWP Handler Flow

HWPHandler.extract_text(current_file)
    ??
    ?œâ???file_converter.validate(file_data)              [INTERFACE: HWPFileConverter]
    ??      ?”â???Check if OLE file (magic number check)
    ??
    ?œâ???If not OLE file:
    ??      ?”â???_handle_non_ole_file()                  [INTERNAL]
    ??              ?œâ???ZIP detected ??HWPXHandler delegation
    ??              ?”â???HWP 3.0 ??Not supported
    ??
    ?œâ???chart_extractor.extract_all_from_file()         [INTERFACE: HWPChartExtractor]
    ??
    ?œâ???file_converter.convert()                        [INTERFACE: HWPFileConverter]
    ??      ?”â???Binary ??olefile.OleFileIO
    ??
    ?œâ???preprocessor.preprocess(ole)                    [INTERFACE: HWPPreprocessor]
    ??      ?”â???Returns PreprocessedData (ole in extracted_resources)
    ??
    ?œâ???metadata_extractor.extract()                    [INTERFACE: HWPMetadataExtractor]
    ?œâ???metadata_extractor.format()                     [INTERFACE: HWPMetadataExtractor]
    ??
    ?œâ???_parse_docinfo(ole)                             [INTERNAL]
    ??      ?”â???parse_doc_info()                        [FUNCTION]
    ??
    ?œâ???_extract_body_text(ole)                         [INTERNAL]
    ??      ??
    ??      ?”â???For each section:
    ??              ?œâ???decompress_section()            [FUNCTION]
    ??              ?”â???_parse_section()                [INTERNAL]
    ??                      ?”â???_process_picture()      [INTERNAL - format_image_processor ?¬ìš©]
    ??
    ?œâ???format_image_processor.process_images_from_bindata()  [INTERFACE: HWPImageProcessor]
    ??
    ?”â???file_converter.close(ole)                       [INTERFACE: HWPFileConverter]

HWPX Handler Flow

HWPXHandler.extract_text(current_file)
    ??
    ?œâ???get_file_stream(current_file)                   [INHERITED: BaseHandler]
    ??      ?”â???BytesIO(file_data)
    ??
    ?œâ???_is_valid_zip(file_stream)                      [INTERNAL]
    ??
    ?œâ???chart_extractor.extract_all_from_file()         [INTERFACE: HWPXChartExtractor]
    ??
    ?œâ???zipfile.ZipFile(file_stream)                    [EXTERNAL LIBRARY]
    ??
    ?œâ???preprocessor.preprocess(zf)                     [INTERFACE: HWPXPreprocessor]
    ??      ?”â???Returns PreprocessedData (extracted_resources available)
    ??
    ?œâ???metadata_extractor.extract()                    [INTERFACE: HWPXMetadataExtractor]
    ?œâ???metadata_extractor.format()                     [INTERFACE: HWPXMetadataExtractor]
    ??
    ?œâ???parse_bin_item_map(zf)                          [FUNCTION]
    ??
    ?œâ???For each section:
    ??      ??
    ??      ?”â???parse_hwpx_section()                    [FUNCTION]
    ??              ??
    ??              ?œâ???format_image_processor.process_images()  [INTERFACE: HWPXImageProcessor]
    ??              ??
    ??              ?”â???parse_hwpx_table()              [FUNCTION]
    ??
    ?”â???format_image_processor.get_remaining_images()   [INTERFACE: HWPXImageProcessor]
        format_image_processor.process_images()         [INTERFACE: HWPXImageProcessor]

CSV Handler Flow

CSVHandler.extract_text(current_file)
    ??
    ?œâ???file_converter.convert(file_data, encoding)     [INTERFACE: CSVFileConverter]
    ??      ?”â???Binary ??Text (with encoding detection)
    ??
    ?œâ???preprocessor.preprocess(content)                [INTERFACE: CSVPreprocessor]
    ??      ?”â???Returns PreprocessedData (content in clean_content)
    ??
    ?œâ???detect_delimiter(content)                       [FUNCTION]
    ??
    ?œâ???parse_csv_content(content, delimiter)           [FUNCTION]
    ??
    ?œâ???detect_header(rows)                             [FUNCTION]
    ??
    ?œâ???metadata_extractor.extract(source_info)         [INTERFACE: CSVMetadataExtractor]
    ??      ?”â???CSVSourceInfo contains: file_path, encoding, delimiter, rows, has_header
    ??
    ?”â???convert_rows_to_table(rows, has_header)         [FUNCTION]
            ?”â???Returns HTML table

Text Handler Flow

TextHandler.extract_text(current_file)
    ??
    ?œâ???preprocessor.preprocess(file_data)              [INTERFACE: TextPreprocessor]
    ??      ?”â???Returns PreprocessedData (file_data in clean_content)
    ??
    ?œâ???file_data.decode(encoding)                      [DIRECT: No FileConverter used]
    ??      ?”â???Try encodings: utf-8, utf-8-sig, cp949, euc-kr, latin-1, ascii
    ??
    ?”â???clean_text() / clean_code_text()                [FUNCTION: utils.py]

Note: TextHandler??file_converterë¥??¬ìš©?˜ì? ?Šê³ ì§�ì ‘ decode?©ë‹ˆ??

HTML Handler Flow

HTMLReprocessor (Utility - NOT a BaseHandler subclass)
    ??
    ?œâ???clean_html_file(html_content)                   [FUNCTION]
    ??      ??
    ??      ?œâ???BeautifulSoup parsing
    ??      ?œâ???Remove unwanted tags (script, style, etc.)
    ??      ?œâ???Remove style attributes
    ??      ?œâ???_process_table_merged_cells()
    ??      ?”â???Return cleaned HTML string
    ??
    ?”â???Used by DOCHandler when HTML format detected

Note: HTML?€ ë³„ë�„??BaseHandler ?œë¸Œ?´ëž˜?¤ê? ?†ìŠµ?ˆë‹¤. DOCHandlerê°€ HTML ?•ì‹�??ê°�ì??˜ë©´ ?´ë??�ìœ¼ë¡?BeautifulSoup?¼ë¡œ ì²˜ë¦¬?©ë‹ˆ??

Image File Handler Flow

ImageFileHandler.extract_text(current_file)
    ??
    ?œâ???preprocessor.preprocess(file_data)              [INTERFACE: ImageFilePreprocessor]
    ??      ?”â???Returns PreprocessedData (file_data in clean_content)
    ??
    ?œâ???Validate file extension                         [INTERNAL]
    ??      ?”â???SUPPORTED_IMAGE_EXTENSIONS: jpg, jpeg, png, gif, bmp, webp
    ??
    ?œâ???If OCR engine is None:
    ??      ?”â???_build_image_tag(file_path)             [INTERNAL]
    ??              ?”â???Return [image:path] tag
    ??
    ?”â???If OCR engine available:
            ?”â???_ocr_engine.extract_text()              [INTERFACE: BaseOCR]
                    ?”â???Image ??Text via OCR

Chunking Flow

chunk_text(text, chunk_size, chunk_overlap)
    ??
    ?”â???create_chunks()                                 [FUNCTION]
            ??
            ?œâ???_extract_document_metadata()            [FUNCTION]
            ??
            ?œâ???Detect file type:
            ??      ??
            ??      ?œâ???Table-based (xlsx, xls, csv):
            ??      ??      ?”â???chunk_multi_sheet_content()  [FUNCTION]
            ??      ??
            ??      ?œâ???Text with page markers:
            ??      ??      ?”â???chunk_by_pages()        [FUNCTION]
            ??      ??
            ??      ?”â???Plain text:
            ??              ?”â???chunk_plain_text()      [FUNCTION]
            ??
            ?”â???_prepend_metadata_to_chunks()           [FUNCTION]

Interface Integration Summary

?Œâ??€?€?€?€?€?€?€?€?€?€?€?€?¬â??€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?¬â??€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?¬â??€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?¬â??€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?¬â??€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€??
??Handler     ??FileConverter       ??Preprocessor        ??MetadataExtractor   ??ChartExtractor      ??FormatImageProcessor??
?œâ??€?€?€?€?€?€?€?€?€?€?€?€?¼â??€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?¼â??€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?¼â??€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?¼â??€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?¼â??€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€??
??PDF         ????PDFFileConverter  ????PDFPreprocessor   ????PDFMetadata       ????NullChart         ????PDFImage          ??
??DOCX        ????DOCXFileConverter ????DOCXPreprocessor  ????DOCXMetadata      ????DOCXChart         ????DOCXImage         ??
??DOC         ????DOCFileConverter  ????DOCPreprocessor   ????NullMetadata      ????NullChart         ????DOCImage          ??
??RTF         ????RTFFileConverter  ????RTFPreprocessor*  ????RTFMetadata       ????NullChart         ????Uses base         ??
??XLSX        ????ExcelFileConverter????ExcelPreprocessor ????XLSXMetadata      ????ExcelChart        ????ExcelImage        ??
??XLS         ????ExcelFileConverter????ExcelPreprocessor ????XLSMetadata       ????ExcelChart        ????ExcelImage        ??
??PPT/PPTX    ????PPTFileConverter  ????PPTPreprocessor   ????PPTMetadata       ????PPTChart          ????PPTImage          ??
??HWP         ????HWPFileConverter  ????HWPPreprocessor   ????HWPMetadata       ????HWPChart          ????HWPImage          ??
??HWPX        ????None (ì§�ì ‘ ZIP)   ????HWPXPreprocessor  ????HWPXMetadata      ????HWPXChart         ????HWPXImage         ??
??CSV         ????CSVFileConverter  ????CSVPreprocessor   ????CSVMetadata       ????NullChart         ????CSVImage          ??
??TXT/MD/JSON ????None (ì§�ì ‘ decode)????TextPreprocessor  ????NullMetadata      ????NullChart         ????TextImage         ??
??HTML        ????N/A (? í‹¸ë¦¬í‹°)    ????N/A               ????N/A               ????N/A               ????N/A               ??
??Image Files ????ImageFileConverter????ImagePreprocessor ????NullMetadata      ????NullChart         ????ImageFileImage    ??
?”â??€?€?€?€?€?€?€?€?€?€?€?€?´â??€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?´â??€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?´â??€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?´â??€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?´â??€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€??

??= Interface implemented
??= Not applicable / NullExtractor / Not used
* = RTFPreprocessor has actual processing logic (image extraction, binary cleanup)

Handler Processing Pipeline

ëª¨ë“ ?¸ë“¤?¬ëŠ” ?™ì�¼??ì²˜ë¦¬ ?Œì�´?„ë�¼?¸ì�„ ?°ë¦…?ˆë‹¤:

?Œâ??€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€??
??                          Handler Processing Pipeline                             ??
?œâ??€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€??
??                                                                                  ??
?? 1. FileConverter.convert()     Binary ??Format-specific object                  ??
??        ??                      (fitz.Document, docx.Document, olefile, etc.)    ??
??        ??                                                                        ??
?? 2. Preprocessor.preprocess()   Process/clean the converted data                 ??
??        ??                      (image extraction, binary cleanup, encoding)     ??
??        ??                                                                        ??
?? 3. MetadataExtractor.extract() Extract document metadata                        ??
??        ??                      (title, author, created date, etc.)              ??
??        ??                                                                        ??
?? 4. Content Extraction          Format-specific content extraction               ??
??        ??                      (text, tables, images, charts)                   ??
??        ??                                                                        ??
?? 5. Result Assembly             Build final result string                        ??
??                                                                                  ??
?”â??€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€??

Note: ?€ë¶€ë¶„ì�˜ ?¸ë“¤?¬ì—�??Preprocessor??pass-through (NullPreprocessor).
      RTF???ˆì™¸ë¡? RTFPreprocessor?�ì„œ ?¤ì œ ë°”ì�´?ˆë¦¬ ì²˜ë¦¬ê°€ ?´ë£¨?´ì§�.

Remaining Function-Based Components

?Œâ??€?€?€?€?€?€?€?€?€?€?€?€?¬â??€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€??
??Handler     ??Function-Based Components                                  ??
?œâ??€?€?€?€?€?€?€?€?€?€?€?€?¼â??€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€??
??PDF         ??extract_text_blocks(), merge_page_elements(),             ??
??            ??ComplexityAnalyzer, VectorTextOCREngine,                  ??
??            ??BlockImageEngine                                          ??
?œâ??€?€?€?€?€?€?€?€?€?€?€?€?¼â??€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€??
??DOCX        ??process_paragraph_element(), process_table_element()      ??
?œâ??€?€?€?€?€?€?€?€?€?€?€?€?¼â??€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€??
??DOC         ??Format detection, OLE/HTML/DOCX internal processing       ??
?œâ??€?€?€?€?€?€?€?€?€?€?€?€?¼â??€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€??
??RTF         ??decode_content() (rtf_decoder.py)                         ??
??            ??extract_tables_with_positions() (rtf_table_extractor.py)  ??
??            ??extract_inline_content() (rtf_content_extractor.py)       ??
?œâ??€?€?€?€?€?€?€?€?€?€?€?€?¼â??€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€??
??Excel       ??extract_textboxes_from_xlsx(), convert_xlsx_sheet_to_table??
??            ??convert_xls_sheet_to_table(), convert_*_objects_to_tables ??
?œâ??€?€?€?€?€?€?€?€?€?€?€?€?¼â??€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€??
??PPT         ??extract_text_with_bullets(), convert_table_to_html(),     ??
??            ??process_image_shape(), process_group_shape()              ??
?œâ??€?€?€?€?€?€?€?€?€?€?€?€?¼â??€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€??
??HWP         ??parse_doc_info(), decompress_section()                    ??
?œâ??€?€?€?€?€?€?€?€?€?€?€?€?¼â??€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€??
??HWPX        ??parse_bin_item_map(), parse_hwpx_section()                ??
?œâ??€?€?€?€?€?€?€?€?€?€?€?€?¼â??€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€??
??CSV         ??detect_delimiter(), parse_csv_content(), detect_header(), ??
??            ??convert_rows_to_table()                                   ??
?œâ??€?€?€?€?€?€?€?€?€?€?€?€?¼â??€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€??
??Text        ??clean_text(), clean_code_text() (utils.py)                ??
?œâ??€?€?€?€?€?€?€?€?€?€?€?€?¼â??€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€??
??HTML        ??clean_html_file(), _process_table_merged_cells()          ??
??            ??(html_reprocessor.py - utility, not handler)              ??
?œâ??€?€?€?€?€?€?€?€?€?€?€?€?¼â??€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€??
??Image       ??OCR engine integration (BaseOCR subclass)                 ??
?œâ??€?€?€?€?€?€?€?€?€?€?€?€?¼â??€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€??
??Chunking    ??create_chunks(), chunk_by_pages(), chunk_plain_text(),    ??
??            ??chunk_multi_sheet_content(), chunk_large_table()          ??
?”â??€?€?€?€?€?€?€?€?€?€?€?€?´â??€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€?€??

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

xgen_doc2chunk Processing Flow

Main Flow

PDF Handler Flow

DOCX Handler Flow

DOC Handler Flow

RTF Handler Flow

Excel Handler Flow (XLSX)

Excel Handler Flow (XLS)

PPT Handler Flow

HWP Handler Flow

HWPX Handler Flow

CSV Handler Flow

Text Handler Flow

HTML Handler Flow

Image File Handler Flow

Chunking Flow

Interface Integration Summary

Handler Processing Pipeline

Remaining Function-Based Components

FilesExpand file tree

Process Logic.md

Latest commit

History

Process Logic.md

File metadata and controls

xgen_doc2chunk Processing Flow

Main Flow

PDF Handler Flow

DOCX Handler Flow

DOC Handler Flow

RTF Handler Flow

Excel Handler Flow (XLSX)

Excel Handler Flow (XLS)

PPT Handler Flow

HWP Handler Flow

HWPX Handler Flow

CSV Handler Flow

Text Handler Flow

HTML Handler Flow

Image File Handler Flow

Chunking Flow

Interface Integration Summary

Handler Processing Pipeline

Remaining Function-Based Components