广告位联系
返回顶部
分享到

Python实现遍历读取文件或文件夹的详细方法

python 来源:互联网 作者:酷站 发布时间:2022-08-07 20:59:09 人浏览
摘要

搞机器学习或者深度学习算法很多时候需要遍历某个目录读取文件,特别是经常需要读取某个特定后缀的文件,比如图片的话可能需要读取jpg, png, bmp格式的文件。python本身的库函数功能

搞机器学习或者深度学习算法很多时候需要遍历某个目录读取文件,特别是经常需要读取某个特定后缀的文件,比如图片的话可能需要读取jpg, png, bmp格式的文件。python本身的库函数功能没有这么定制化,所以就需要再重新包装一下。

 

例子

假设我们有如下的目录结构,以bmp结尾的是文件,其他是文件夹。下面的程序都将以该目录结构为例进行说明。

 

os.listdir

os.listdir仅读取当前路径下的文件和文件夹,返回一个列表。读取demo目录结构的代码和结果如下:

1

2

path = r'D:data'

items = os.listdir(path)  # ==> ['1.bmp', '2.bmp', 'a', 'b']

 

os.walk

os.walk本身已经是遍历读取,包含所有的子文件(夹)但是其结果不像是os.listdir一样是个list,而是一个比较复杂的数据体,难以直接使用,所以一般需要再处理一下。我们可以使用for语句将其打印出来看看:

1

2

3

4

5

6

7

path = r'D:data'

# part 1

for items in os.walk(path):

    print(items)

# part 2

for main_dir, sub_dir_list, sub_file_list in os.walk(path):

    print(main_dir, sub_dir_list, sub_file_list)

结果为:

# part 1
('D:\data', ['a', 'b'], ['1.bmp', '2.bmp'])
('D:\data\a', [], ['a1.bmp'])
('D:\data\b', [], ['b1.bmp'])

# part 2
D:data ['a', 'b'] ['1.bmp', '2.bmp']
D:data [] ['a1.bmp']
D:data [] ['b1.bmp']

使用迭代器对os.walk()的结果进行输出,发现每一条包含三个部分(part 1),在part 2中,我们给三个部分分别起名为main_dir, sub_dir_list, sub_file_list,下面对其进行简单解释:

  • main_dir:遍历得到的路径下所有文件夹
  • sub_dir_list:main_dir下面的文件夹
  • sub_file_list:main_dir下面的文件

连接main_dir和sub_file_list中的文件可以得到路径下的所有文件。

sub_dir_list在这里则没有用处,我们无需再去遍历sub_dir_list,因为它们已经包含在main_dir里了。

 

遍历读取代码

代码逻辑如下:

需要有后缀辨别功能,并且能够同时辨别多个后缀

需要有递归和非递归功能

返回的是以入参path为前缀的路径,所以如果path是完整路径那么返回的就是完整路径,否则就不是

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

76

77

78

79

80

81

82

83

84

85

86

87

88

89

90

91

92

93

94

95

96

97

98

99

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

159

160

161

162

163

# -*- coding: utf-8 -*-

import os

 

 

def file_ext(filename, level=1):

    """

    return extension of filename

 

    Parameters:

    -----------

    filename: str

        name of file, path can be included

    level: int

        level of extension.

        for example, if filename is 'sky.png.bak', the 1st level extension

        is 'bak', and the 2nd level extension is 'png'

 

    Returns:

    --------

    extension of filename

    """

    return filename.split('.')[-level]

 

 

def _contain_file(path, extensions):

    """

    check whether path contains any file whose extension is in extensions list

 

    Parameters:

    -----------

    path: str

        path to be checked

    extensions: str or list/tuple of str

        extension or extensions list

 

    Returns:

    --------

    return True if contains, else return False

    """

    assert os.path.exists(path), 'path must exist'

    assert os.path.isdir(path), 'path must be dir'

 

    if isinstance(extensions, str):

        extensions = [extensions]

 

    for file in os.listdir(path):

        if os.path.isfile(os.path.join(path, file)):

            if (extensions is None) or (file_ext(file) in extensions):

                return True

    return False

 

 

def _process_extensions(extensions=None):

    """

    preprocess and check extensions, if extensions is str, convert it to list.

 

    Parameters:

    -----------

    extensions: str or list/tuple of str

        file extensions

 

    Returns:

    --------

    extensions: list/tuple of str

        file extensions

    """

    if extensions is not None:

        if isinstance(extensions, str):

            extensions = [extensions]

        assert isinstance(extensions, (list, tuple)),

            'extensions must be str or list/tuple of str'

        for ext in extensions:

            assert isinstance(ext, str), 'extension must be str'

    return extensions

 

 

def get_files(path, extensions=None, is_recursive=True):

    """

    read files in path. if extensions is None, read all files, if extensions

    are specified, only read the files who have one of the extensions. if

    is_recursive is True, recursively read all files, if is_recursive is False,

    only read files in current path.

 

    Parameters:

    -----------

    path: str

        path to be read

    extensions: str or list/tuple of str

        file extensions

    is_recursive: bool

        whether read files recursively. read recursively is True, while just

        read files in current path if False

 

    Returns:

    --------

    files: the obtained files in path

    """

    extensions = _process_extensions(extensions)

    files = []

    # get files in current path

    if not is_recursive:

        for name in os.listdir(path):

            fullname = os.path.join(path, name)

            if os.path.isfile(fullname):

                if (extensions is None) or (file_ext(fullname) in extensions):

                    files.append(fullname)

        return files

    # get files recursively

    for main_dir, _, sub_file_list in os.walk(path):

        for filename in sub_file_list:

            fullname = os.path.join(main_dir, filename)

            if (extensions is None) or (file_ext(fullname) in extensions):

                files.append(fullname)

    return files

 

 

def get_folders(path, extensions=None, is_recursive=True):

    """

    read folders in path. if extensions is None, read all folders, if

    extensions are specified, only read the folders who contain any files that

    have one of the extensions. if is_recursive is True, recursively read all

    folders, if is_recursive is False, only read folders in current path.

 

    Parameters:

    -----------

    path: str

        path to be read

    extensions: str or list/tuple of str

        file extensions

    is_recursive: bool

        whether read folders recursively. read recursively is True, while just

        read folders in current path if False

 

    Returns:

    --------

    folders: the obtained folders in path

    """

    extensions = _process_extensions(extensions)

    folders = []

    # get folders in current path

    if not is_recursive:

        for name in os.listdir(path):

            fullname = os.path.join(path, name)

            if os.path.isdir(fullname):

                if (extensions is None) or

                        (_contain_file(fullname, extensions)):

                    folders.append(fullname)

        return folders

    # get folders recursively

    for main_dir, _, _ in os.walk(path):

        if (extensions is None) or (_contain_file(main_dir, extensions)):

            folders.append(main_dir)

    return folders

 

 

if __name__ == '__main__':

    path = r'.data'

 

    files = get_files(path)

    print(files)  # ==> ['D:\data\1.bmp', 'D:\data\2.bmp', 'D:\data\a\a1.bmp', 'D:\data\b\b1.bmp']

 

    folders = get_folders(path)

    print(folders)  # ==> ['D:\data', 'D:\data\a', 'D:\data\b']


版权声明 : 本文内容来源于互联网或用户自行发布贡献,该文观点仅代表原作者本人。本站仅提供信息存储空间服务和不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权, 违法违规的内容, 请发送邮件至2530232025#qq.cn(#换@)举报,一经查实,本站将立刻删除。
原文链接 : https://blog.csdn.net/bby1987/article/details/108764387
相关文章
  • Python Django教程之实现新闻应用程序

    Python Django教程之实现新闻应用程序
    Django是一个用Python编写的高级框架,它允许我们创建服务器端Web应用程序。在本文中,我们将了解如何使用Django创建新闻应用程序。 我们将
  • 书写Python代码的一种更优雅方式(推荐!)

    书写Python代码的一种更优雅方式(推荐!)
    一些比较熟悉pandas的读者朋友应该经常会使用query()、eval()、pipe()、assign()等pandas的常用方法,书写可读性很高的「链式」数据分析处理代码
  • Python灰度变换中伽马变换分析实现

    Python灰度变换中伽马变换分析实现
    1. 介绍 伽马变换主要目的是对比度拉伸,将图像灰度较低的部分进行修正 伽马变换针对的是对单个像素点的变换,也就是点对点的映射 形
  • 使用OpenCV实现迷宫解密的全过程

    使用OpenCV实现迷宫解密的全过程
    一、你能自己走出迷宫吗? 如下图所示,可以看到是一张较为复杂的迷宫图,相信也有人尝试过自己一点一点的找出口,但我们肉眼来解谜
  • Python中的数据精度问题的介绍

    Python中的数据精度问题的介绍
    一、python运算时精度问题 1.运行时精度问题 在Python中(其他语言中也存在这个问题,这是计算机采用二进制导致的),有时候由于二进制和
  • Python随机值生成的常用方法

    Python随机值生成的常用方法
    一、随机整数 1.包含上下限:[a, b] 1 2 3 4 import random #1、随机整数:包含上下限:[a, b] for i in range(10): print(random.randint(0,5),end= | ) 查看运行结
  • Python字典高级用法深入分析讲解
    一、 collections 中 defaultdict 的使用 1.字典的键映射多个值 将下面的列表转成字典 l = [(a,2),(b,3),(a,1),(b,4),(a,3),(a,1),(b,3)] 一个字典就是一个键对
  • Python浅析多态与鸭子类型使用实例
    什么多态:同一事物有多种形态 为何要有多态=》多态会带来什么样的特性,多态性 多态性指的是可以在不考虑对象具体类型的情况下而直
  • Python字典高级用法深入分析介绍
    一、 collections 中 defaultdict 的使用 1.字典的键映射多个值 将下面的列表转成字典 l = [(a,2),(b,3),(a,1),(b,4),(a,3),(a,1),(b,3)] 一个字典就是一个键对
  • Python淘宝或京东等秒杀抢购脚本实现(秒杀脚本

    Python淘宝或京东等秒杀抢购脚本实现(秒杀脚本
    我们的目标是秒杀淘宝或京东等的订单,这里面有几个关键点,首先需要登录淘宝或京东,其次你需要准备好订单,最后要在指定时间快速
  • 本站所有内容来源于互联网或用户自行发布,本站仅提供信息存储空间服务,不拥有版权,不承担法律责任。如有侵犯您的权益,请您联系站长处理!
  • Copyright © 2017-2022 F11.CN All Rights Reserved. F11站长开发者网 版权所有 | 苏ICP备2022031554号-1 | 51LA统计