需要金幣:1000 個金幣 | 資料包括:完整論文 | ||
轉換比率:金額 X 10=金幣數量, 例100元=1000金幣 | 論文字數:11849 | ||
折扣與優惠:團購最低可5折優惠 - 了解詳情 | 論文格式:Word格式(*.doc) |
摘要:在網絡技術迅猛發展的當下,互聯網日漸成為一種載體去承托海量的數據資源,但有價值的網絡信息資源便于人們訪問卻難以獲取使用,因此如何以快速有效的方式獲取到在線資源成為難題。在房地產領域,困難體現在用戶無法獲取多次房源信息,無法實現對房源各核心數據的對比,無法針對性地對房源進行排序參考。 本文以二手房源信息作為案例,通過使用Python語言結合網絡爬蟲技術對房源信息網站——Q房網在售二手房數據進行爬取,解析抽取HTML文檔里關鍵數據,運用多層級頁面爬取、多線程調度實現在線資源的自動獲取。用戶借助爬取到的數據可以快速把房源數據按照自己需求去進行篩選比對,以此可以得到最優的房源選擇。
關鍵詞:網絡爬蟲;Python語言;數據抽??;房源信息
目 錄 摘 要 ABSTRACT 第一章 緒論-1 1.1 研究背景-1 1.2 研究現狀-1 1.2.1 通用網絡爬蟲-1 1.2.2 增量網絡爬蟲-2 1.2.3 聚焦網絡爬蟲-2 1.3 研究內容-2 1.4 本文組織架構-2 第二章 相關技術-4 2.1 Pycharm概述-4 2.2 Python爬蟲常用庫-4 2.2.1 請求庫-4 2.2.2 解析庫-4 2.2.3 存儲庫-5 2.2.4 爬蟲框架-5 2.2.5 Web框架庫-5 2.3 數據提取方法概述-5 2.3.1 XPath-6 2.3.2 Beautiful Soup-6 2.3.3 正則表達式-6 第三章 系統的分析與概要設計-8 3.1 可行性分析-8 3.1.1 技術可行性-8 3.1.2 經濟可行性-8 3.1.3 操作可行性-8 3.2 系統功能需求分析-8 3.2.1 網頁請求模塊-9 3.2.2 下載模塊-9 3.2.3 數據解析模塊-9 3.2.4 多層級爬取模塊-9 3.2.5 數據存儲模塊-10 3.2.6 多線程模塊-10 3.3 系統功能結構圖-10 3.4 系統流程圖-11 第四章 系統的詳細設計與代碼實現-13 4.1 分析URL構造規則-13 4.2 基本的反爬蟲應對措施-14 4.3 XPath實現數據解析-16 4.4 實現多層頁面的爬取-18 4.5 實現爬取模塊-21 4.6 實現數據存儲-22 4.7 實現多線程爬蟲-26 第五章 總結與展望-29 5.1 總結-29 5.2 下一階段工作展望-29 參考文獻-31 致 謝-32 |