<dfn id="d7jtv"><b id="d7jtv"><dl id="d7jtv"></dl></b></dfn>

              <meter id="d7jtv"></meter>
              

              <font id="d7jtv"><output id="d7jtv"><noframes id="d7jtv">

              雅虎開源解析HTML頁面數據的Web爬取工具Anthelion

              2016-02-02 14:02 來源:venturebeat.com
              瀏覽量: 收藏:0 分享

                2015年12月14日,Yahoo宣布開源解析HTML頁面結構數據的Web爬取工具Anthelion.Web爬行工具是Yahoo很重要的核心,甚至超過了其他應用:YahooMail,YahooFinance,YahooMessenger,Flickr和Tumblr。

                2014年在上海的一次會議中,Yahoo也詳細提到了Anthelion:“Anthelion最初專注于語義數據,使用標記語言嵌入到HTML頁面,比如Microdata,Microformat或者RDFa?!边@次會議還提到了爬取技術是如何實現的,為什么能提供更高數量的特定搜索查詢相關的結果。

                Microdata和RDFa是結構數據關于不同主題的語法格式,兼容schema。org詞匯(一個Google,Yahoo和Bing搜索引擎都在研究的項目)aprojectthattheGoogle,Yahoo,andBingsearchenginesallworkon。

                Anthelion的代碼現在以Apache開源授權協議托管到GitHub:https://github。com/yahoo/anthelion,包含ApacheNutch完整源代碼。

                Anthelion可以根據設定目標爬取特定頁面,比如,包括標記描述影片和至少兩個不同屬性(比如電影標題和演員)。

              標簽:

              責任編輯:admin
              在線客服
              中文字幕乱妇无码Av在线

                <dfn id="d7jtv"><b id="d7jtv"><dl id="d7jtv"></dl></b></dfn>

                          <meter id="d7jtv"></meter>
                          

                          <font id="d7jtv"><output id="d7jtv"><noframes id="d7jtv">