如何从多个文件中提取一列,而这些列粘贴到一个文件?(How to extract one colum

2019-07-18 23:49发布

我想提取从多个文件,以数字顺序命名为第5列,并且通过侧粘贴序列 ,侧那些列,到一个输出文件中。

文件名看起来像:

sample_problem1_part1.txt
sample_problem1_part2.txt

sample_problem2_part1.txt
sample_problem2_part2.txt

sample_problem3_part1.txt
sample_problem3_part2.txt
......

每一个问题的文件(1,2,3 ......)有两个部分(第一部分,第2部分)。 每个文件具有相同的行数。 内容是这样的:

sample_problem1_part1.txt
1 1 20 20 1
1 7 21 21 2
3 1 22 22 3
1 5 23 23 4
6 1 24 24 5
2 9 25 25 6
1 0 26 26 7

sample_problem1_part2.txt
1 1 88 88 8
1 1 89 89 9
2 1 90 90 10
1 3 91 91 11
1 1 92 92 12
7 1 93 93 13
1 5 94 94 14

sample_problem2_part1.txt
1 4 330 30 a
3 4 331 31 b
1 4 332 32 c
2 4 333 33 d
1 4 334 34 e
1 4 335 35 f
9 4 336 36 g

输出应为:(在问题1 _part 1的序列, 问题1 _part 2, 问题2 _part 1, 问题2 _part 2, 问题3 _part 1, 问题3 _part 2等,)

1 8 a ...
2 9 b ...
3 10 c ...
4 11 d ...
5 12 e ...
6 13 f ...
7 14 g ...

我用的是:

 paste sample_problem1_part1.txt sample_problem1_part2.txt > \
     sample_problem1_partall.txt
 paste sample_problem2_part1.txt sample_problem2_part2.txt > \
     sample_problem2_partall.txt
 paste sample_problem3_part1.txt sample_problem3_part2.txt > \
     sample_problem3_partall.txt

然后:

for i in `find . -name "sample_problem*_partall.txt"`
do
    l=`echo $i | sed 's/sample/extracted_col_/'`
    `awk '{print $5, $10}'  $i > $l`
done    

和:

paste extracted_col_problem1_partall.txt \
      extracted_col_problem2_partall.txt \
      extracted_col_problem3_partall.txt > \
    extracted_col_problemall_partall.txt

它正常工作与几个文件,但它是一个疯狂的方法时,文件的数量较大(4000)。 谁能帮我用更简单的解决方案,能够处理多个文件,好吗? 谢谢!

Answer 1:

下面是使用一种方法awk和文件的排序水珠:

awk '{ a[FNR] = (a[FNR] ? a[FNR] FS : "") $5 } END { for(i=1;i<=FNR;i++) print a[i] }' $(ls -1v *)

结果:

1 8 a
2 9 b
3 10 c
4 11 d
5 12 e
6 13 f
7 14 g

说明:

  • 对于每个输入文件的输入的每一行:

    • 文件行号添加到阵列与第5列的值。

    • (a[FNR] ? a[FNR] FS : "")是三元操作,其被设置以建立阵列的值作为一个记录。 它只是简单地询问如果文件行号已经在数组中。 如果是这样,加入的第五列之前添加阵列值之后是默认文件分离器。 否则,如果行号是不是数组中,不预先考虑什么,就让它等于列第五位。

  • 在脚本的结尾:

    • 使用C风格遍历阵列来迭代,打印每个阵列的值。


Answer 2:

对于只〜4000的文件,你应该能够做到:

 find . -name sample_problem*_part*.txt | xargs paste

如果find是错误的顺序给予的名字,用管道来sort

 find . -name sample_problem*_part*.txt | sort ... | xargs paste


Answer 3:

# print filenames in sorted order
find -name sample\*.txt | sort |
# extract 5-th column from each file and print it on a single line
xargs -n1 -I{} sh -c '{ cut -s -d " " -f 5 $0 | tr "\n" " "; echo; }' {} |
# transpose
python transpose.py ?

其中transpose.py

#!/usr/bin/env python
"""Write lines from stdin as columns to stdout."""
import sys
from itertools import izip_longest

missing_value = sys.argv[1] if len(sys.argv) > 1 else '-'
for row in izip_longest(*[column.split() for column in sys.stdin],
                         fillvalue=missing_value):
    print " ".join(row)

产量

1 8 a
2 9 b
3 10 c
4 11 d
5 ? e
6 ? f
? ? g

假设第一和第二文件已线比第三少一个(缺失值改为'?' )。



Answer 4:

试试这个。 我的脚本假定每个文件具有相同的行数。

# get number of lines
lines=$(wc -l sample_problem1_part1.txt | cut -d' ' -f1)

for ((i=1; i<=$lines; i++)); do
  for file in sample_problem*; do
    # get line number $i and delete everything except the last column
    # and then print it
    # echo -n means that no newline is appended
    echo -n $(sed -n ${i}'s%.*\ %%p' $file)" "
  done
  echo
done

这工作。 对于4800个文件,每个7行长时间耗时2分57.865秒上的AMD Athlon(商标)X2双核处理器BE-2400。

PS:我的剧本的时间与行数线性增加。 这将需要很长的时间与1000行合并文件。 你应该考虑学习AWK和史蒂夫使用的脚本。 我测试了它:对于4800文件,每个文件1000行花了只有65秒!



Answer 5:

你可以通过AWK输出到粘贴和重定向到一个新的文件,如下所示:

粘贴<(AWK '{打印$ 3}' file1的)<(AWK '{打印$ 3}' 文件2)<(AWK '{打印$ 3}' file3的)> file.txt的



文章来源: How to extract one column from multiple files, and paste those columns into one file?