我使用下面的命令来提取包含.com扩展名不同的网址,并且可以包含或页面没有自动跳转任何国家扩展。
grep '\.com' source.txt -m 700 | uniq | sed -e 's/www.//'
> dest.txt
问题是,它提取在同一doamin网址,东西谓我不想。 例如:abc.yahoo.com efg.yahoo.com
我只需要yahoo.com。 我怎样才能用grep或任何其它命令只提取不同的域名?
我使用下面的命令来提取包含.com扩展名不同的网址,并且可以包含或页面没有自动跳转任何国家扩展。
grep '\.com' source.txt -m 700 | uniq | sed -e 's/www.//'
> dest.txt
问题是,它提取在同一doamin网址,东西谓我不想。 例如:abc.yahoo.com efg.yahoo.com
我只需要yahoo.com。 我怎样才能用grep或任何其它命令只提取不同的域名?
也许这样的事情?
egrep -io '[a-z0-9\-]+\.[a-z]{2,3}(\.[a-z]{2})?' source.txt
你尝过,而不是用SED AWK,并指定“” 作为分隔符,只打印出最后两个领域。
awk -F "." '{ print $(NF-1)"."$NF }'
或许,这样的事情应该有所帮助:
egrep -o '[^.]*.com' file