国产拍偷精品网国产精品视频,日韩精品国产自在久久现线拍,亚洲中文字幕大香视频蕉无码

使用Python編寫(xiě)網(wǎng)絡(luò)爬蟲(chóng)程序獲取互聯(lián)網(wǎng)上的大數(shù)據(jù)是當(dāng)前的熱門(mén)專題。本書(shū)內(nèi)容包括三部分：基礎(chǔ)部分、進(jìn)階部分和項(xiàng)目實(shí)踐�；A(chǔ)部分（第1~7章）主要介紹爬蟲(chóng)的三個(gè)步驟——獲取網(wǎng)頁(yè)、解析網(wǎng)頁(yè)和存儲(chǔ)數(shù)據(jù)，并通過(guò)諸多示例的講解，讓讀者能夠從基礎(chǔ)內(nèi)容開(kāi)始系統(tǒng)性地學(xué)習(xí)爬蟲(chóng)技術(shù)，并在實(shí)踐中提升Python爬蟲(chóng)水平。進(jìn)階部分（第8~13章）包括多線程的并發(fā)和并行爬蟲(chóng)、分布式爬蟲(chóng)、更換IP等，幫助讀者進(jìn)一步提升爬蟲(chóng)水平。項(xiàng)目實(shí)踐部分（第14~17章）使用本書(shū)介紹的爬蟲(chóng)技術(shù)對(duì)幾個(gè)真實(shí)的網(wǎng)站進(jìn)行抓取，讓讀者能在讀完本書(shū)后根據(jù)自己的需求寫(xiě)出爬蟲(chóng)程序。

近年來(lái)，大數(shù)據(jù)成為業(yè)界與學(xué)術(shù)界的熱門(mén)話題之一，數(shù)據(jù)已經(jīng)成為每個(gè)公司極為重要的資產(chǎn)�；ヂ�(lián)網(wǎng)上大量的公開(kāi)數(shù)據(jù)為個(gè)人和公司提供了以往想象不到的可以獲取的數(shù)據(jù)量，而掌握網(wǎng)絡(luò)爬蟲(chóng)技術(shù)可以幫助你獲取這些有用的公開(kāi)數(shù)據(jù)集。
執(zhí)筆本書(shū)的起因是我打算在知乎上寫(xiě)博客向香港中文大學(xué)市場(chǎng)營(yíng)銷(xiāo)學(xué)的研究生講解Python 網(wǎng)絡(luò)爬蟲(chóng)技術(shù)，讓這些商科學(xué)生掌握一些大數(shù)據(jù)時(shí)代重要的技術(shù)。因此，本書(shū)除了面向技術(shù)人員外，還面向不懂編程的“小白”，希望能夠?qū)⒕W(wǎng)絡(luò)爬蟲(chóng)學(xué)習(xí)的門(mén)檻降低，讓大家都能享受到使用網(wǎng)絡(luò)爬蟲(chóng)編程的樂(lè)趣。過(guò)去的一年中，本書(shū)第1版幫助很多讀者開(kāi)啟了Python和網(wǎng)絡(luò)爬蟲(chóng)的世界，因此有幸獲得出版社的邀請(qǐng)，在之前版本的基礎(chǔ)上進(jìn)行修改，更新書(shū)中的案例以及添加新的內(nèi)容，形成第2版。
本書(shū)所有代碼均在 Python 3.6 中測(cè)試通過(guò)，并存放在 Github 和百度網(wǎng)盤(pán)上：Github鏈接為 https://github.com/Santostang/PythonScraping；百度網(wǎng)盤(pán)鏈接為https://pan.baidu.com/s/14RA8Srew8tbqVT977JDvNw，提取碼為h2kf。為了方便大家練習(xí)Python網(wǎng)絡(luò)爬蟲(chóng)，我專門(mén)搭建了一個(gè)博客網(wǎng)站用于Python網(wǎng)絡(luò)爬蟲(chóng)的教學(xué)，本書(shū)的教學(xué)部分全部基于爬取我的個(gè)人博客網(wǎng)（www.santostang.com）。一方面，由于這個(gè)網(wǎng)站不會(huì)更改設(shè)計(jì)和框架，因此本書(shū)的網(wǎng)絡(luò)爬蟲(chóng)代碼可以一直使用；另一方面，由于這是我自己的博客網(wǎng)站，因此可以避免一些法律上的風(fēng)險(xiǎn)。
讀者對(duì)象
（1）對(duì)Python編程和網(wǎng)絡(luò)爬蟲(chóng)感興趣的大專院校師生，需要獲取數(shù)據(jù)進(jìn)行分析；
（2）打算轉(zhuǎn)行或入行爬蟲(chóng)工程師、數(shù)據(jù)分析師、數(shù)據(jù)科學(xué)家的人士；
（3）需要使用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)自動(dòng)獲取數(shù)據(jù)分析的各行業(yè)人士。
勘誤和支持
由于作者水平和能力有限，編寫(xiě)時(shí)間倉(cāng)促，不妥之處在所難免，希望讀者批評(píng)指正。本書(shū)的讀者QQ群為798652826，歡迎讀者加群交流。另外，也可以到我的博客www.santostang.com反饋意見(jiàn)，歡迎讀者和網(wǎng)絡(luò)爬蟲(chóng)愛(ài)好者不吝賜教。
如何閱讀本書(shū)
本書(shū)分為17章。
第 1~7 章為基礎(chǔ)部分，主要介紹Python入門(mén)，Python網(wǎng)絡(luò)爬蟲(chóng)的獲取網(wǎng)頁(yè)、解析網(wǎng)頁(yè)和存儲(chǔ)數(shù)據(jù)三個(gè)流程，以及Scrapy爬蟲(chóng)框架。這部分每一章的最后都有自我實(shí)踐題，讀者可以通過(guò)實(shí)踐題熟悉Python 爬蟲(chóng)代碼的編寫(xiě)。
第 8~13 章為進(jìn)階部分，主要介紹多線程和多進(jìn)程爬蟲(chóng)、反爬蟲(chóng)、服務(wù)器爬蟲(chóng)和分布式爬蟲(chóng)等進(jìn)階爬蟲(chóng)技術(shù)，這部分為你在爬蟲(chóng)實(shí)踐中遇到的問(wèn)題提供了解決方案。
第 14~17章為項(xiàng)目實(shí)踐部分，每一章包含一個(gè)詳細(xì)的爬蟲(chóng)案例，每個(gè)案例都覆蓋之前章節(jié)的知識(shí)，讓你在學(xué)習(xí) Python 爬蟲(chóng)后，可以通過(guò)在真實(shí)網(wǎng)站中練習(xí)來(lái)消化和吸收 Python爬蟲(chóng)的知識(shí)。
本書(shū)幾乎每章都使用案例來(lái)學(xué)習(xí)Python網(wǎng)絡(luò)爬蟲(chóng)，希望告訴讀者“通過(guò)實(shí)戰(zhàn)解決實(shí)際問(wèn)題，才能高效地學(xué)習(xí)新知識(shí)”。手輸代碼，練習(xí)案例，才是學(xué)習(xí)Python和網(wǎng)絡(luò)爬蟲(chóng)的有效方法。
致謝
首先感謝卞誠(chéng)君老師在我寫(xiě)書(shū)過(guò)程中給予的指導(dǎo)和幫助。沒(méi)有他的提議，我不會(huì)想到將自己的網(wǎng)絡(luò)爬蟲(chóng)博客整理成一本書(shū)出版，更不會(huì)有本書(shū)的第2版。
從轉(zhuǎn)行數(shù)據(jù)分析，到申請(qǐng)去康奈爾大學(xué)讀書(shū)，再到回國(guó)做數(shù)據(jù)分析師，我在計(jì)算機(jī)技術(shù)和數(shù)據(jù)科學(xué)的道路上，得到了無(wú)數(shù)貴人的幫助和提攜。首先感謝劉建南教授帶我進(jìn)入了數(shù)據(jù)挖掘的大門(mén)，無(wú)私地將數(shù)據(jù)挖掘、營(yíng)銷(xiāo)知識(shí)和經(jīng)驗(yàn)傾囊相授，您是我的啟蒙老師，也是我一生的恩師。
感謝騰訊公司商業(yè)分析組和數(shù)據(jù)服務(wù)中心的各位同事，特別感謝我的組長(zhǎng)張殿鵬和導(dǎo)師王歡，他們耐心地培養(yǎng)和教導(dǎo)我如何成為一名優(yōu)秀的數(shù)據(jù)分析師，讓我放手去挑戰(zhàn)和嘗試不同項(xiàng)目，堅(jiān)持將數(shù)據(jù)分析的成果落地。
感謝一路走來(lái)，支持我、幫助我的前輩和朋友，包括香港中文大學(xué)的教授和朋友——馬旭飛教授、李宜威博士、數(shù)據(jù)科學(xué)家周啟航、數(shù)據(jù)分析師趙作棟、數(shù)據(jù)分析師王禮斌以及好友孫成帥、張蓓等，康奈爾大學(xué)的同學(xué)——數(shù)據(jù)科學(xué)家湯心韻等、思路富邦有限公司總裁陳智銓、數(shù)據(jù)科學(xué)家吳嘉杰。尤其感謝IBM香港CTO戴劍寒博士、香港中文大學(xué)（深圳）校長(zhǎng)講席教授賈建民博士、TalkingData騰云大學(xué)執(zhí)行校長(zhǎng)楊慧博士和DaoCloud首席架構(gòu)師王天青在百忙中熱情地為本書(shū)寫(xiě)推薦語(yǔ)。
感謝我的父母、妹妹和女朋友給我一貫的支持和幫助！

唐松
中國(guó)深圳

你還可能感興趣

我要評(píng)論