我下载一些YouTube的评论页面,我想提取用户名(或用户的显示名称),并像下面的代码块的链接:
<p class="metadata">
<span class="author ">
<a href="/channel/UCuoJ_C5xNTrdnc4motXPHIA" class="yt-uix-sessionlink yt-user-name " data-sessionlink="ei=CKG174zFqbQCFZmaIQodtmyE0A%3D%3D" dir="ltr">Sabil Muhammad</a>
</span>
<span class="time" dir="ltr">
<a dir="ltr" href="http://www.youtube.com/comment?lc=S2ZH2gSPYaef43vTRkLDxUzo2fYicVUc3SFvmYq2jrs">
il y a 1 jour
</a>
</span>
</p>
我想提取/渠道/ UCuoJ_C5xNTrdnc4motXPHIA和塞比勒穆罕默德
当然有很多很多线路中的HTML页面,但我只希望把重点放在代码块如上述,并提取所有的用户名和相应的链接,并把它们放到一个日志文件
有没有这方面的任何好的剧本? 我知道bash和C / C ++
谢谢!