【C#】推薦2個.Net開源Html解析器,方便我們提取網(wǎng)頁數(shù)據(jù)
當(dāng)前位置:點晴教程→知識管理交流
→『 技術(shù)文檔交流 』
如果我們需要抓取網(wǎng)絡(luò)上的數(shù)據(jù),這時候我們就要寫爬蟲,這里面就涉及到網(wǎng)頁的抓取、以及網(wǎng)頁分析與數(shù)據(jù)提取。 下面推薦2個.Net開源Html解析器,方便用于網(wǎng)絡(luò)爬蟲Html源碼的解析、Html源碼編輯等場景。 一、AngleSharp 這是一個基于.Net開發(fā)的,Html代碼解析器,支持通過C#實現(xiàn)類似Jquery的方式來解析Html源碼、節(jié)點創(chuàng)建、節(jié)點刪除、節(jié)點修改、屬性的添加修改等,還支持SVG、XML、MathML等格式,此外還能解析Css。 項目地址: https://github.com/AngleSharp/AngleSharp? 項目特色 1、非常出色的性能; 2、基于.NET Standard 2.0開發(fā),支持跨平臺,包括移動平臺; 3、擴(kuò)展性強(qiáng),可以自己自定義; 4、支持LINQ語法; 5、支持類似Jquery查詢功能; 6、表單提交、Http請求等; 7、Api功能符合W3C規(guī)范標(biāo)準(zhǔn)。 部分代碼示例 Html代碼解析 Form表單提交,并獲取超鏈接數(shù)量 通過Class選擇元素 表格單元格選擇 Html元素創(chuàng)建 添加Class 屬性操作 二、html-agility-pack Html Agility Pack (HAP) 是一個開源的 HTML 解析庫。
示例代碼 獲取指定的網(wǎng)頁,并獲取所有a標(biāo)簽的文本。
該文章在 2025/3/19 12:54:33 編輯過 |
關(guān)鍵字查詢
相關(guān)文章
正在查詢... |