如何从在Linux文件中提取字符串的特定部分(How to extract distinct par

2019-09-20 09:42发布

我使用下面的命令来提取包含.com扩展名不同的网址,并且可以包含或页面没有自动跳转任何国家扩展。

 grep '\.com' source.txt -m 700 | uniq | sed -e 's/www.//' 
> dest.txt

问题是,它提取在同一doamin网址,东西谓我不想。 例如:abc.yahoo.com efg.yahoo.com

我只需要yahoo.com。 我怎样才能用grep或任何其它命令只提取不同的域名?

Answer 1:

也许这样的事情?

egrep -io '[a-z0-9\-]+\.[a-z]{2,3}(\.[a-z]{2})?' source.txt


Answer 2:

你尝过,而不是用SED AWK,并指定“” 作为分隔符,只打印出最后两个领域。

awk -F "." '{ print $(NF-1)"."$NF }'


Answer 3:

或许,这样的事情应该有所帮助:

egrep -o '[^.]*.com' file


文章来源: How to extract distinct part of a string from a file in linux
标签: linux