需要金幣:1000 個金幣 | 資料包括:完整論文 | ||
轉換比率:金額 X 10=金幣數量, 例100元=1000金幣 | 論文字數:13143 | ||
折扣與優惠:團購最低可5折優惠 - 了解詳情 | 論文格式:Word格式(*.doc) |
摘要:課題主要研究基于python的當當網圖書網絡爬蟲的實現。通過爬蟲爬取當當網圖書暢銷榜書籍數據,根據需求解析出書名,評論數,價格,出版社和價格等數據內容。獲取爬取的數據后,對圖書數據進行可視化分析,研究當當圖書的評論熱度,價格區間,出版社圖書占比,書名詞云以及整體圖書內容等,并把分析結果通過可視化web形式展示。 課題爬蟲基于python的requests庫,通過正則表達式以及python其他解析庫進行解析,數據可視化采用了pyecharts庫,最后用flask框架實現web展示。 該課題的意義在于通過對當當網爬蟲小項目的處理,掌握基于python的爬蟲開發技術、了解大數據處理的一般方法。
關鍵詞:python;網絡爬蟲;flask框架;requests庫
目 錄 摘 要 ABSTRACT 第一章 緒 論-1 1.1 課題簡介-1 1.2 本課題的研究現狀-1 1.3 課題研究的意義-2 第二章 需求分析-4 2.1 系統需求分析-4 2.2 系統功能分析-4 2.3 系統可行性分析-5 2.3.1技術可行性-5 2.3.2 經濟可行性-5 2.3.3 操作可行性-5 2.4 開發平臺的選擇與確定-5 2.5 本系統主要用到的開發技術-6 2.5.1 Python網絡爬蟲技術-6 2.5.2 Echarts可視化技術-6 2.5.3 數據庫基礎-6 2.5.4 Flask web框架技術-6 第三章 概要設計-7 3.1 功能模塊設計-7 3.1.1數據爬取功能模塊-7 3.1.2 數據可視化功能模塊-8 3.1.3 Flask web展示功能模塊-8 3.2 系統用例圖設計-9 3.2.1普通用戶用例圖-9 3.2.2 管理員用例圖-10 3.2.3綜合用例圖-10 3.3 系統體系結構設計-11 3.4 系統數據庫設計-12 第四章 詳細設計與系統實現-13 4.1 圖書爬蟲詳細設計-13 4.1.1 requests模塊基本使用-13 4.1.2 正則表達式提取-14 4.1.3 將爬取的數據寫入數據庫-15 4.2 數據可視化-16 4.2.1 評論熱度柱狀圖-17 4.2.2 價格區間圖書占比-18 4.2.3 出版社圖書占比-19 4.2.4 書名詞云-21 4.3 Flask web框架-22 4.3.1 網頁主頁顯示-22 4.3.2 查看圖書信息-22 4.3.3 web展示評論熱度柱狀圖-24 4.3.4 web展示出版社圖書占比餅圖-25 4.3.5 web展示價格區間圖書占比餅圖-26 4.3.6 web展示書名詞云-27 第五章 系統測試-28 5.1 系統測試的目的和重要性-28 5.2 系統測試的方法-28 5.3 設計測試用例-28 5.4 測試結果-32 第六章 總結與展望-33 6.1總結-33 6.2展望-33 參考文獻-34 致 謝-35 |