在 Linux 中分割和重组文件

lewis 2021-03-03 21次阅读

本文目录导读：

在 Linux 系统中，文件处理是一项常见的任务，我们需要将大文件分割成小文件，或者将多个小文件重组为一个文件，这种需求在处理大量数据、备份、传输或整理文件时尤为常见，下面，我们将从多个方面详细介绍如何在 Linux 中分割和重组文件。

1. 使用 split 命令

split 命令是 Linux 中用于分割文件的内置工具，它允许你将大文件分割成指定大小的小文件，基本语法如下：

split [OPTION]... [INPUT [PREFIX]]

[OPTION]...可选项，用于指定分割文件的参数，常用的参数有 -b（按字节大小分割）和 -l（按行数分割）。

[INPUT]要分割的文件名，如果未指定，则从标准输入读取。

[PREFIX]输出文件的的前缀，如果不指定，则默认为 x。

要将名为 bigfile.txt 的文件按每 100 行分割，可以使用以下命令：

split -l 100 bigfile.txt output_prefix_

这将会生成一系列以 output_prefix_ 开头的文件，如 output_prefix_aa, output_prefix_ab 等，每个文件包含约 100 行内容。

2. 使用 dd 命令

虽然 dd 命令主要用于低级别的数据转换和拷贝，但也可以用来分割文件，基本语法如下：

dd if=INPUT_FILE of=OUTPUT_FILE bs=BLOCK_SIZE count=NUM [skip=SKIP] [seek=SEEK] [conv=CONVERT]

if=INPUT_FILE要读取的文件名。

of=OUTPUT_FILE要写入的文件名。

bs=BLOCK_SIZE块大小，用于指定读取和写入的数据块大小。

count=NUM要读取的块数，这决定了输出文件的大小。

skip=SKIP跳过输入文件的前缀字节数。

seek=SEEK在输出文件中跳过前缀字节数，这可以用于跳过输出文件的开头部分。

conv=CONVERT转换选项，用于修改数据的读写方式。

要将名为 bigfile.txt 的文件按每 1MB 分割，可以使用以下命令：

dd if=bigfile.txt of=output_%03d bs=1M count=1 skip=0 conv=sync,notrunc

这将会生成一系列以 output_ 开头的文件，如 output_001, output_002 等，每个文件包含约 1MB 的内容，注意，这里使用了 conv=sync,notrunc 选项来确保输出文件的写入不会被截断。

1. 使用 cat 命令

cat 命令是 Linux 中用于连接和显示文件的工具，它也可以用来将多个小文件重组为一个文件，基本语法如下：

cat [OPTION]... [FILE]...

[OPTION]...可选项，用于指定连接文件的参数，常用的参数有 -n（显示行号）和 -s（抑制连续的空白行）。

[FILE]...要连接的文件名列表，如果未指定，则从标准输入读取。

要将之前分割的 output_prefix_ 开头的文件重组为一个名为 recombined.txt 的文件，可以使用以下命令：

cat output_prefix_* > recombined.txt

这将会将所有以 output_prefix_ 开头的文件内容连接起来，并保存到 recombined.txt 文件中，注意，这里使用了通配符 * 来匹配所有以 output_prefix_ 开头的文件名。

2. 使用 paste 命令（适用于按列重组）

如果需要将多个小文件按列重组为一个文件，可以使用 paste 命令，基本语法如下：

paste [OPTION]... FILE...

[OPTION]...可选项，用于指定重组文件的参数，常用的参数有 -d（指定分隔符）和 --delimiters（指定自定义的分隔符）。