广告位联系
返回顶部
分享到

Python实现将PDF文件拆分任意页数介绍

python 来源:互联网 作者:佚名 发布时间:2025-02-13 21:19:54 人浏览
摘要

PyMuPDF,简称fitz,是一个轻量级的Python库,它基于MuPDF的C++库,提供了丰富的功能,包括但不限于PDF的读取、编辑、转换和渲染。Fitz作为PyMuPDF的子模块,简化和封装了PyMuPDF的功能,使得在Pyt

PyMuPDF,简称fitz,是一个轻量级的Python库,它基于MuPDF的C++库,提供了丰富的功能,包括但不限于PDF的读取、编辑、转换和渲染。Fitz作为PyMuPDF的子模块,简化和封装了PyMuPDF的功能,使得在Python中处理PDF文件更加简单。

二、安装

PyMuPDF(包含fitz模块)可以通过Python的包管理器pip来安装。

在命令行工具中输入以下命令:

1

pip install PyMuPDF

这将从Python包索引下载并安装PyMuPDF及其依赖项。

或者

三、基本功能

1、打开PDF文件:

使用fitz.open()函数可以打开一个PDF文件,并返回一个表示该文件的对象。例如:

1

2

import fitz

doc = fitz.open("example.pdf")

2、获取页面数量:

通过page_count属性可以获取PDF文件的总页数。例如:

1

2

page_count = doc.page_count 

print("Number of pages:", page_count)

3、提取文本:

使用get_text()方法可以提取当前页面的所有文本。例如:

1

2

text = page.get_text() 

print("Extracted text:", text)

此外,还可以遍历文档中的每一页,提取每一页的文本。

4、保存修改后的PDF:

使用save()方法可以保存对PDF文件所做的更改。例如:

1

doc.save("modified_example.pdf")

其他功能:

  • 插入新的页面:使用fitz.new_page()创建新页面,然后使用insert_pdf()方法将新页面插入到指定位置。
  • 合并多个PDF文件:创建一个空的PDF文档对象,然后遍历要合并的PDF文件,将它们的页面插入到新的文档对象中,最后保存合并后的PDF。
  • 提取PDF中的图片:遍历PDF的每一页,使用get_images()方法获取页面上的所有图像,并保存它们。
  • 提取PDF中的表格:使用find_tables()方法获取页面上的表格,然后可以将表格数据保存为CSV格式文件。 四、应用场景

四、应用场景

PyMuPDF(fitz)适用于需要处理PDF文件的各种场景,如文本提取、页面操作、PDF合并与分割等。它以其快速、高效和易于使用而著称,是处理PDF文件的理想选择。

例如:PDF文件拆分任意页数.py

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

76

77

78

79

80

81

import fitz

import os

  

  

def split_pdf(pdf_path):

    # 检查输入的PDF文件是否存在

    if not os.path.exists(pdf_path):

        print("您输入的路径无pdf文件!")

        return

  

        # 打开pdf文件

    doc = fitz.open(pdf_path)

    page_count = len(doc)

    print(f"该pdf文件页数为:{page_count}")

  

    while True:

        # 获取起始页码(0基索引)

        page_num1 = None

        while True:

            try:

                user_input = input("请输入您拆分的起始页码(输入q/Q退出):")

                if user_input.lower() == 'q':

                    doc.close()

                    return

                page_num1 = int(user_input) - 1

                if page_num1 < 0 or page_num1 >= page_count:

                    print("起始页码无效,请重新输入。")

                else:

                    break

            except ValueError:

                print("请输入有效的起始页码或q/Q退出。")

  

        # 获取结束页码(0基索引)

        page_num2 = None

        while True:

            try:

                user_input = input("请输入您拆分的截止页码(输入q/Q退出):")

                if user_input.lower() == 'q':

                    doc.close()

                    return

                page_num2 = int(user_input) - 1

                if page_num2 < 0 or page_num2 >= page_count:

                    print("截止页码无效,请重新输入。")

                else:

                    break

            except ValueError:

                print("请输入有效的截止页码或q/Q退出。")

  

        # 创建一个新的PDF文档并插入指定的页面范围

        new_doc = fitz.open()

        new_doc.insert_pdf(doc, from_page=page_num1, to_page=page_num2)

  

        # 获取用户输入的PDF基础名字和保存目录

        pdf_base_name = input("请输入您的PDF基础名字:")

        if not pdf_base_name.lower().endswith('.pdf'):

            pdf_name = f"{pdf_base_name}_{page_num1 + 1}-{page_num2 + 1}.pdf"

        else:

            pdf_name = f"{pdf_base_name[:-4]}_{page_num1 + 1}-{page_num2 + 1}.pdf"

  

        save_dir = input("请输入您想要保存PDF的目录(例如:C:/Users/YourName/Documents/):")

        # 确保目录末尾有斜杠,并检查目录是否存在

        if not save_dir.endswith(os.sep) and save_dir != "":

            save_dir += os.sep

        os.makedirs(save_dir, exist_ok=True)

  

        output_path = os.path.join(save_dir, pdf_name)

        new_doc.save(output_path)

        new_doc.close()

        print(f"Saved: {output_path}")

  

        # 检查是否继续拆分或退出

        is_continue = input("是否继续拆分其他页面范围(q/Q退出)?").strip().lower()

        if is_continue == 'q':

            doc.close()

            break

  

  

# 调用函数进行PDF拆分

  

pdf_path = input("请输入您需要拆分的PDF路径:")

split_pdf(pdf_path)


版权声明 : 本文内容来源于互联网或用户自行发布贡献,该文观点仅代表原作者本人。本站仅提供信息存储空间服务和不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权, 违法违规的内容, 请发送邮件至2530232025#qq.cn(#换@)举报,一经查实,本站将立刻删除。
原文链接 :
相关文章
  • Python+PyQt手搓一个文件浏览器

    Python+PyQt手搓一个文件浏览器
    一、效果展示 二、界面设计 该界面通过Qt Designer设计 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39
  • Python实现将PDF文件拆分任意页数介绍

    Python实现将PDF文件拆分任意页数介绍
    PyMuPDF,简称fitz,是一个轻量级的Python库,它基于MuPDF的C++库,提供了丰富的功能,包括但不限于PDF的读取、编辑、转换和渲染。Fitz作为Py
  • 20个实用的Python Excel自动化脚本介绍
    在数据处理和分析的过程中,Excel文件是我们日常工作中常见的格式。通过Python,我们可以实现对Excel文件的各种自动化操作,提高工作效率
  • Python实现移动指定图片到指定目录

    Python实现移动指定图片到指定目录
    前阵子,拍了200张照片,然后挑了20张找人精修下,今天修完发来给我,然后我先对比一下和原图的效果差异,以便做验收。由于前期挑出来
  • 使用Python IDLE进行Debug调试的图文介绍

    使用Python IDLE进行Debug调试的图文介绍
    1.首先以我的Python版本为例为大家讲解,我的版本是Python 3.7,版本问题对使用情况影响不大。 2.接着我们可以通过新建文件夹来输入我们的
  • 树莓派启动python的实现方法介绍

    树莓派启动python的实现方法介绍
    树莓派运行Python程序的方法: 一、RaspBerry系统设置 1、首先在开发板没有通电情况下,连接硬件,以及项目中用到传感器。比如当前项目需
  • Python给Excel写入数据的四种方法介绍
    Python 在数据处理领域应用广泛,其中与 Excel 文件的交互是常见需求之一。 本文将介绍四种使用 Python 给Excel 文件写入数据的方法,并结合生
  • 用Python编写一个MP3分割工具

    用Python编写一个MP3分割工具
    最终效果图 代码 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56
  • Python如何生成requirements.txt
    在 Python 项目中,requirements.txt文件通常用于列出项目依赖的库及其版本号。这样可以方便地在其他环境中安装相同的依赖。 以下是生成req
  • 10个Python Excel自动化脚本分享介绍
    在数据处理和分析的过程中,Excel文件是我们日常工作中常见的格式。通过Python,我们可以实现对Excel文件的各种自动化操作,提高工作效率
  • 本站所有内容来源于互联网或用户自行发布,本站仅提供信息存储空间服务,不拥有版权,不承担法律责任。如有侵犯您的权益,请您联系站长处理!
  • Copyright © 2017-2022 F11.CN All Rights Reserved. F11站长开发者网 版权所有 | 苏ICP备2022031554号-1 | 51LA统计