Python实现将PDF文件拆分任意页数介绍_F11 - 专业站长和开发者的学习网站

本站首页收藏本站

广告位联系

APP正在开发中...

返回顶部

分享到

Python实现将PDF文件拆分任意页数介绍

python 来源：互联网作者：佚名发布时间：2025-02-13 21:19:54 人浏览

摘要

PyMuPDF，简称fitz，是一个轻量级的Python库，它基于MuPDF的C++库，提供了丰富的功能，包括但不限于PDF的读取、编辑、转换和渲染。Fitz作为PyMuPDF的子模块，简化和封装了PyMuPDF的功能，使得在Pyt

PyMuPDF，简称fitz，是一个轻量级的Python库，它基于MuPDF的C++库，提供了丰富的功能，包括但不限于PDF的读取、编辑、转换和渲染。Fitz作为PyMuPDF的子模块，简化和封装了PyMuPDF的功能，使得在Python中处理PDF文件更加简单。

二、安装

PyMuPDF（包含fitz模块）可以通过Python的包管理器pip来安装。

在命令行工具中输入以下命令：

1	pip install PyMuPDF

这将从Python包索引下载并安装PyMuPDF及其依赖项。

或者

三、基本功能

1、打开PDF文件：

使用fitz.open()函数可以打开一个PDF文件，并返回一个表示该文件的对象。例如：

1 2	import fitz doc = fitz.open("example.pdf")

2、获取页面数量：

通过page_count属性可以获取PDF文件的总页数。例如：

1 2	page_count = doc.page_count print("Number of pages:", page_count)

3、提取文本：

使用get_text()方法可以提取当前页面的所有文本。例如：

1 2	text = page.get_text() print("Extracted text:", text)

此外，还可以遍历文档中的每一页，提取每一页的文本。

4、保存修改后的PDF：

使用save()方法可以保存对PDF文件所做的更改。例如：

1	doc.save("modified_example.pdf")

其他功能：

插入新的页面：使用fitz.new_page()创建新页面，然后使用insert_pdf()方法将新页面插入到指定位置。
合并多个PDF文件：创建一个空的PDF文档对象，然后遍历要合并的PDF文件，将它们的页面插入到新的文档对象中，最后保存合并后的PDF。
提取PDF中的图片：遍历PDF的每一页，使用get_images()方法获取页面上的所有图像，并保存它们。
提取PDF中的表格：使用find_tables()方法获取页面上的表格，然后可以将表格数据保存为CSV格式文件。四、应用场景

四、应用场景

PyMuPDF（fitz）适用于需要处理PDF文件的各种场景，如文本提取、页面操作、PDF合并与分割等。它以其快速、高效和易于使用而著称，是处理PDF文件的理想选择。

例如：PDF文件拆分任意页数.py

import fitz

import os

def split_pdf(pdf_path):

# 检查输入的PDF文件是否存在

if not os.path.exists(pdf_path):

print("您输入的路径无pdf文件！")

return

# 打开pdf文件

doc = fitz.open(pdf_path)

page_count = len(doc)

print(f"该pdf文件页数为：{page_count}")

while True:

# 获取起始页码（0基索引）

page_num1 = None

while True:

try:

user_input = input("请输入您拆分的起始页码（输入q/Q退出）：")

if user_input.lower() == 'q':

doc.close()

return

page_num1 = int(user_input) - 1

if page_num1 < 0 or page_num1 >= page_count:

print("起始页码无效，请重新输入。")

else:

break

except ValueError:

print("请输入有效的起始页码或q/Q退出。")

# 获取结束页码（0基索引）

page_num2 = None

while True:

try:

user_input = input("请输入您拆分的截止页码（输入q/Q退出）：")

if user_input.lower() == 'q':

doc.close()

return

page_num2 = int(user_input) - 1

if page_num2 < 0 or page_num2 >= page_count:

print("截止页码无效，请重新输入。")

else:

break

except ValueError:

print("请输入有效的截止页码或q/Q退出。")

# 创建一个新的PDF文档并插入指定的页面范围

new_doc = fitz.open()

new_doc.insert_pdf(doc, from_page=page_num1, to_page=page_num2)

# 获取用户输入的PDF基础名字和保存目录

pdf_base_name = input("请输入您的PDF基础名字：")

if not pdf_base_name.lower().endswith('.pdf'):

pdf_name = f"{pdf_base_name}_{page_num1 + 1}-{page_num2 + 1}.pdf"

else:

pdf_name = f"{pdf_base_name[:-4]}_{page_num1 + 1}-{page_num2 + 1}.pdf"

save_dir = input("请输入您想要保存PDF的目录（例如：C:/Users/YourName/Documents/）：")

# 确保目录末尾有斜杠，并检查目录是否存在

if not save_dir.endswith(os.sep) and save_dir != "":

save_dir += os.sep

os.makedirs(save_dir, exist_ok=True)

output_path = os.path.join(save_dir, pdf_name)

new_doc.save(output_path)

new_doc.close()

print(f"Saved: {output_path}")

# 检查是否继续拆分或退出

is_continue = input("是否继续拆分其他页面范围（q/Q退出）？").strip().lower()

if is_continue == 'q':

doc.close()

break

# 调用函数进行PDF拆分

pdf_path = input("请输入您需要拆分的PDF路径：")

split_pdf(pdf_path)

您可能感兴趣的文章 :

原文链接 :

Tag : python(1077)PDF(26)

Python+PyQt手搓一个文件浏览器

一、效果展示二、界面设计该界面通过Qt Designer设计 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39
Python实现将PDF文件拆分任意页数介绍

PyMuPDF，简称fitz，是一个轻量级的Python库，它基于MuPDF的C++库，提供了丰富的功能，包括但不限于PDF的读取、编辑、转换和渲染。Fitz作为Py
20个实用的Python Excel自动化脚本介绍

在数据处理和分析的过程中，Excel文件是我们日常工作中常见的格式。通过Python，我们可以实现对Excel文件的各种自动化操作，提高工作效率
Python实现移动指定图片到指定目录

前阵子，拍了200张照片，然后挑了20张找人精修下，今天修完发来给我，然后我先对比一下和原图的效果差异，以便做验收。由于前期挑出来
使用Python IDLE进行Debug调试的图文介绍

1.首先以我的Python版本为例为大家讲解，我的版本是Python 3.7，版本问题对使用情况影响不大。 2.接着我们可以通过新建文件夹来输入我们的
树莓派启动python的实现方法介绍

树莓派运行Python程序的方法：一、RaspBerry系统设置 1、首先在开发板没有通电情况下，连接硬件，以及项目中用到传感器。比如当前项目需
Python给Excel写入数据的四种方法介绍

Python 在数据处理领域应用广泛，其中与 Excel 文件的交互是常见需求之一。本文将介绍四种使用 Python 给Excel 文件写入数据的方法，并结合生
用Python编写一个MP3分割工具

最终效果图代码 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56
Python如何生成requirements.txt

在 Python 项目中，requirements.txt文件通常用于列出项目依赖的库及其版本号。这样可以方便地在其他环境中安装相同的依赖。以下是生成req
10个Python Excel自动化脚本分享介绍

在数据处理和分析的过程中，Excel文件是我们日常工作中常见的格式。通过Python，我们可以实现对Excel文件的各种自动化操作，提高工作效率