Summary - Unstructured

POST

/

general

/

v0

/

general

curl --request POST \
  --url https://api.unstructuredapp.io/general/v0/general \
  --header 'Content-Type: multipart/form-data' \
  --header 'unstructured-api-key: <api-key>' \
  --form coordinates=false \
  --form 'content_type=<string>' \
  --form 'encoding=<string>' \
  --form 'extract_image_block_types=[]' \
  --form 'gz_uncompressed_content_type=<string>' \
  --form 'hi_res_model_name=<string>' \
  --form include_page_breaks=false \
  --form 'languages=[]' \
  --form 'ocr_languages=[]' \
  --form output_format=application/json \
  --form pdf_infer_table_structure=true \
  --form 'skip_infer_table_types=[]' \
  --form starting_page_number=123 \
  --form strategy=auto \
  --form vlm_model_provider=openai \
  --form vlm_model=gpt-4o \
  --form 'table_ocr_agent=<string>' \
  --form unique_element_ids=false \
  --form xml_keep_tags=false \
  --form chunking_strategy=by_title \
  --form combine_under_n_chars=123 \
  --form include_orig_elements=true \
  --form tracking_enabled=true \
  --form max_characters=123 \
  --form multipage_sections=true \
  --form new_after_n_chars=123 \
  --form overlap=0 \
  --form overlap_all=false \
  --form similarity_threshold=123 \
  --form include_slide_notes=true \
  --form pdfminer_line_overlap=123 \
  --form pdfminer_char_margin=123 \
  --form pdfminer_line_margin=123 \
  --form pdfminer_word_margin=123

[
  {
    "type": "Title",
    "element_id": "6aa0ff22f91bbe7e26e8e25ca8052acd",
    "text": "LayoutParser: A Unified Toolkit for Deep Learning Based Document Image Analysis",
    "metadata": {
      "languages": [
        "eng"
      ],
      "page_number": 1,
      "filename": "layout-parser-paper.pdf",
      "filetype": "application/pdf"
    }
  }
]

Authorizations

unstructured-api-key

string

header

required

Headers

unstructured-api-key

string | null

Body

multipart/form-data

Response

200

application/json

Successful Response

A list of element dictionaries extracted from the file

Generate a JSON schema for a file Overview

curl --request POST \
  --url https://api.unstructuredapp.io/general/v0/general \
  --header 'Content-Type: multipart/form-data' \
  --header 'unstructured-api-key: <api-key>' \
  --form coordinates=false \
  --form 'content_type=<string>' \
  --form 'encoding=<string>' \
  --form 'extract_image_block_types=[]' \
  --form 'gz_uncompressed_content_type=<string>' \
  --form 'hi_res_model_name=<string>' \
  --form include_page_breaks=false \
  --form 'languages=[]' \
  --form 'ocr_languages=[]' \
  --form output_format=application/json \
  --form pdf_infer_table_structure=true \
  --form 'skip_infer_table_types=[]' \
  --form starting_page_number=123 \
  --form strategy=auto \
  --form vlm_model_provider=openai \
  --form vlm_model=gpt-4o \
  --form 'table_ocr_agent=<string>' \
  --form unique_element_ids=false \
  --form xml_keep_tags=false \
  --form chunking_strategy=by_title \
  --form combine_under_n_chars=123 \
  --form include_orig_elements=true \
  --form tracking_enabled=true \
  --form max_characters=123 \
  --form multipage_sections=true \
  --form new_after_n_chars=123 \
  --form overlap=0 \
  --form overlap_all=false \
  --form similarity_threshold=123 \
  --form include_slide_notes=true \
  --form pdfminer_line_overlap=123 \
  --form pdfminer_char_margin=123 \
  --form pdfminer_line_margin=123 \
  --form pdfminer_word_margin=123

[
  {
    "type": "Title",
    "element_id": "6aa0ff22f91bbe7e26e8e25ca8052acd",
    "text": "LayoutParser: A Unified Toolkit for Deep Learning Based Document Image Analysis",
    "metadata": {
      "languages": [
        "eng"
      ],
      "page_number": 1,
      "filename": "layout-parser-paper.pdf",
      "filetype": "application/pdf"
    }
  }
]

POST

/

general

/

v0

/

general

curl --request POST \
  --url https://api.unstructuredapp.io/general/v0/general \
  --header 'Content-Type: multipart/form-data' \
  --header 'unstructured-api-key: <api-key>' \
  --form coordinates=false \
  --form 'content_type=<string>' \
  --form 'encoding=<string>' \
  --form 'extract_image_block_types=[]' \
  --form 'gz_uncompressed_content_type=<string>' \
  --form 'hi_res_model_name=<string>' \
  --form include_page_breaks=false \
  --form 'languages=[]' \
  --form 'ocr_languages=[]' \
  --form output_format=application/json \
  --form pdf_infer_table_structure=true \
  --form 'skip_infer_table_types=[]' \
  --form starting_page_number=123 \
  --form strategy=auto \
  --form vlm_model_provider=openai \
  --form vlm_model=gpt-4o \
  --form 'table_ocr_agent=<string>' \
  --form unique_element_ids=false \
  --form xml_keep_tags=false \
  --form chunking_strategy=by_title \
  --form combine_under_n_chars=123 \
  --form include_orig_elements=true \
  --form tracking_enabled=true \
  --form max_characters=123 \
  --form multipage_sections=true \
  --form new_after_n_chars=123 \
  --form overlap=0 \
  --form overlap_all=false \
  --form similarity_threshold=123 \
  --form include_slide_notes=true \
  --form pdfminer_line_overlap=123 \
  --form pdfminer_char_margin=123 \
  --form pdfminer_line_margin=123 \
  --form pdfminer_word_margin=123

[
  {
    "type": "Title",
    "element_id": "6aa0ff22f91bbe7e26e8e25ca8052acd",
    "text": "LayoutParser: A Unified Toolkit for Deep Learning Based Document Image Analysis",
    "metadata": {
      "languages": [
        "eng"
      ],
      "page_number": 1,
      "filename": "layout-parser-paper.pdf",
      "filetype": "application/pdf"
    }
  }
]

Authorizations

unstructured-api-key

string

header

required

Headers

unstructured-api-key

string | null

Body

multipart/form-data

Response

200

application/json

Successful Response

A list of element dictionaries extracted from the file

Generate a JSON schema for a file Overview

curl --request POST \
  --url https://api.unstructuredapp.io/general/v0/general \
  --header 'Content-Type: multipart/form-data' \
  --header 'unstructured-api-key: <api-key>' \
  --form coordinates=false \
  --form 'content_type=<string>' \
  --form 'encoding=<string>' \
  --form 'extract_image_block_types=[]' \
  --form 'gz_uncompressed_content_type=<string>' \
  --form 'hi_res_model_name=<string>' \
  --form include_page_breaks=false \
  --form 'languages=[]' \
  --form 'ocr_languages=[]' \
  --form output_format=application/json \
  --form pdf_infer_table_structure=true \
  --form 'skip_infer_table_types=[]' \
  --form starting_page_number=123 \
  --form strategy=auto \
  --form vlm_model_provider=openai \
  --form vlm_model=gpt-4o \
  --form 'table_ocr_agent=<string>' \
  --form unique_element_ids=false \
  --form xml_keep_tags=false \
  --form chunking_strategy=by_title \
  --form combine_under_n_chars=123 \
  --form include_orig_elements=true \
  --form tracking_enabled=true \
  --form max_characters=123 \
  --form multipage_sections=true \
  --form new_after_n_chars=123 \
  --form overlap=0 \
  --form overlap_all=false \
  --form similarity_threshold=123 \
  --form include_slide_notes=true \
  --form pdfminer_line_overlap=123 \
  --form pdfminer_char_margin=123 \
  --form pdfminer_line_margin=123 \
  --form pdfminer_word_margin=123

[
  {
    "type": "Title",
    "element_id": "6aa0ff22f91bbe7e26e8e25ca8052acd",
    "text": "LayoutParser: A Unified Toolkit for Deep Learning Based Document Image Analysis",
    "metadata": {
      "languages": [
        "eng"
      ],
      "page_number": 1,
      "filename": "layout-parser-paper.pdf",
      "filetype": "application/pdf"
    }
  }
]