如何使用.NET的web浏览器或mshtml.HTMLDocument动态生成HTML代码?如何使用

2019-05-08 23:23发布

大部分的答案我已经读了关于这个问题的点无论是System.Windows.Forms.WebBrowser类或从Microsoft HTML对象库组件的COM接口mshtml.HTMLDocument。

web浏览器类并没有导致我到任何地方。 下面的代码无法通过我的网页浏览器渲染检索的HTML代码:

[STAThread]
public static void Main()
{
    WebBrowser wb = new WebBrowser();
    wb.Navigate("https://www.google.com/#q=where+am+i");

    wb.DocumentCompleted += delegate(object sender, WebBrowserDocumentCompletedEventArgs e)
    {
        mshtml.IHTMLDocument2 doc = (mshtml.IHTMLDocument2)wb.Document.DomDocument;
        foreach (IHTMLElement element in doc.all)
        {
                    System.Diagnostics.Debug.WriteLine(element.outerHTML);
        }     
    };
    Form f = new Form();
    f.Controls.Add(wb);
    Application.Run(f);
} 

以上仅仅是一个例子。 我不是在寻找搞清楚我所在的小镇的名字解决方法很感兴趣。 我只是需要了解如何以编程方式检索那种动态生成的数据。

(呼叫新System.Net.WebClient.DownloadString(“ https://www.google.com/#q=where+am+i ”),保存生成的文本的地方,搜索您目前的小镇的名字位于,让我知道,如果你能找到它。)

但是,但是,当我访问“ https://www.google.com/#q=where+am+i ”从我的Web浏览器(IE或Firefox),我看到了我写的镇网页上的名字。 在Firefox中,如果我在小镇的名字点击右键,选择“检查元素(Q)”我清楚地看到用这恰好把目光从由Web客户端返回原始HTML完全不同的HTML代码镇名。

之后我厌倦了打System.Net.WebBrowser,我决定给mshtml.HTMLDocument了一枪,正好与同无用原始的HTML结束:

public static void Main()
{
    mshtml.IHTMLDocument2 doc = (mshtml.IHTMLDocument2)new mshtml.HTMLDocument();
    doc.write(new System.Net.WebClient().DownloadString("https://www.google.com/#q=where+am+i"));

    foreach (IHTMLElement e in doc.all)
    {
            System.Diagnostics.Debug.WriteLine(e.outerHTML);
    }
} 

我想必须有一个优雅的方式来获得这种信息。 现在,所有我能想到的是一个WebBrowser控件添加到形式,把它定位到相关网址,发送键“CLRL,A”,并复制到被显示在页面上到剪贴板,并试图无论发生什么事解析它。 这是可怕的解决方案,但。

Answer 1:

我想贡献一些代码来阿列克谢的答案 。 有几个要点:

  • 严格说来,它并不总是能够确定时,页面已经完成了100%的概率渲染。 有些相当复杂,采用连续AJAX更新。 但是,我们可以得到相当接近,通过轮询更改页面的当前HTML快照和检查WebBrowser.IsBusy财产。 这就是LoadDynamicPage下面呢。

  • 有些超时逻辑必须存在于上述的顶部,以防页面呈现永无止境(注意CancellationTokenSource )。

  • Async/await为编码本,因为它给出了线性码流对我们的异步轮询逻辑,这极大地简化它的极佳工具。

  • 它以使HTML5渲染使用是很重要的浏览器功能控制 ,如WebBrowser在IE7仿真模式默认运行。 这就是SetFeatureBrowserEmulation下面呢。

  • 这是一个WinForms应用程序,但概念可以很容易地转换成一个控制台应用程序 。

  • 这个逻辑也适用于你特别提到的网址: https://www.google.com/#q=where+am+i 。

using Microsoft.Win32;
using System;
using System.ComponentModel;
using System.Diagnostics;
using System.Threading;
using System.Threading.Tasks;
using System.Windows.Forms;

namespace WbFetchPage
{
    public partial class MainForm : Form
    {
        public MainForm()
        {
            SetFeatureBrowserEmulation();
            InitializeComponent();
            this.Load += MainForm_Load;
        }

        // start the task
        async void MainForm_Load(object sender, EventArgs e)
        {
            try
            {
                var cts = new CancellationTokenSource(10000); // cancel in 10s
                var html = await LoadDynamicPage("https://www.google.com/#q=where+am+i", cts.Token);
                MessageBox.Show(html.Substring(0, 1024) + "..." ); // it's too long!
            }
            catch (Exception ex)
            {
                MessageBox.Show(ex.Message);
            }
        }

        // navigate and download 
        async Task<string> LoadDynamicPage(string url, CancellationToken token)
        {
            // navigate and await DocumentCompleted
            var tcs = new TaskCompletionSource<bool>();
            WebBrowserDocumentCompletedEventHandler handler = (s, arg) =>
                tcs.TrySetResult(true);

            using (token.Register(() => tcs.TrySetCanceled(), useSynchronizationContext: true))
            {
                this.webBrowser.DocumentCompleted += handler;
                try 
                {           
                    this.webBrowser.Navigate(url);
                    await tcs.Task; // wait for DocumentCompleted
                }
                finally
                {
                    this.webBrowser.DocumentCompleted -= handler;
                }
            }

            // get the root element
            var documentElement = this.webBrowser.Document.GetElementsByTagName("html")[0];

            // poll the current HTML for changes asynchronosly
            var html = documentElement.OuterHtml;
            while (true)
            {
                // wait asynchronously, this will throw if cancellation requested
                await Task.Delay(500, token); 

                // continue polling if the WebBrowser is still busy
                if (this.webBrowser.IsBusy)
                    continue; 

                var htmlNow = documentElement.OuterHtml;
                if (html == htmlNow)
                    break; // no changes detected, end the poll loop

                html = htmlNow;
            }

            // consider the page fully rendered 
            token.ThrowIfCancellationRequested();
            return html;
        }

        // enable HTML5 (assuming we're running IE10+)
        // more info: https://stackoverflow.com/a/18333982/1768303
        static void SetFeatureBrowserEmulation()
        {
            if (LicenseManager.UsageMode != LicenseUsageMode.Runtime)
                return;
            var appName = System.IO.Path.GetFileName(System.Diagnostics.Process.GetCurrentProcess().MainModule.FileName);
            Registry.SetValue(@"HKEY_CURRENT_USER\Software\Microsoft\Internet Explorer\Main\FeatureControl\FEATURE_BROWSER_EMULATION",
                appName, 10000, RegistryValueKind.DWord);
        }
    }
}


Answer 2:

您的Web浏览器的代码看起来合理 - 等待的东西,这抓住当前内容。 不幸的是没有官方的“我已完成执行JavaScript,随意窃取内容”,从浏览器和JavaScript通知。

某种积极的等待(不Sleep ,但Timer )可能是必要的和具体的页面。 即使您使用模拟浏览器(即PhantomJS),你有同样的问题。



文章来源: how to dynamically generate HTML code using .NET's WebBrowser or mshtml.HTMLDocument?