1.在數(shù)據(jù)庫中即時保存數(shù)據(jù):Dataset
當我們想要在不知道最終數(shù)據(jù)庫表長什么樣的情況下,快速收集數(shù)據(jù)并保存到數(shù)據(jù)庫中的時候,Dataset庫將是我們的最佳選擇。Dataset庫有一個簡單但功能強大的API,因此我們可以很容易的把數(shù)據(jù)保存下來,之后再進行整理。
Dataset建立在SQLAlchemy之上,所以如果需要對它進行擴展,你會感到非常熟悉。使用Django內(nèi)建的inspectdb管理命令可以很容易地把底層數(shù)據(jù)庫模型導(dǎo)入Django中,這使得和現(xiàn)有數(shù)據(jù)庫一同工作不會出現(xiàn)任何障礙。
2.從網(wǎng)頁抓取數(shù)據(jù):BeautifulSoup
BeautifulSoup(一般寫作BS4)庫使得從HTML網(wǎng)頁中提取信息變得非常簡單。當我們需要把非結(jié)構(gòu)化或弱結(jié)構(gòu)化的HTML轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)的時候,就需要使用BeautifulSoup。用它來處理XML數(shù)據(jù)也是一個很好的選擇,否則XML的可讀性或許會很差。
3.和HTTP內(nèi)容打交道:Requests
當需要和HTTP內(nèi)容打交道的時候,Requests毫無疑問是最好的標準庫。當我們想要抓取HTML網(wǎng)頁或連接API的時候,都離不開Requests庫。同時,它也有很好的文檔。
4.編寫命令行工具:Click
當需要寫一個簡單的Python腳本作為命令行工具的時候,Click是我最喜歡用的庫。它的API非常直觀,并且在實現(xiàn)時經(jīng)過了深思熟慮,我們只需要記住很少的幾個模式。它的文檔也很優(yōu)秀,這使得學(xué)習其高級特性更加容易。
5.對事物命名:PythonSlugify
眾所周知,命名是一件困難的事情。PythonSlugify是一個非常有用的庫,它可以把一個標題或描述轉(zhuǎn)成一個帶有特性的唯一標識符。如果你正在做一個Web項目,并且你想要使用對搜索引擎優(yōu)化友好(SEO-friendly)的鏈接,那么,使用PythonSlugify可以讓這件事變得很容易。
6.和插件打交道:Pluggy
Pluggy庫相對較新,但是如果你想添加一個插件系統(tǒng)到現(xiàn)有應(yīng)用中,那么使用Pluggy是最好也是最簡單的方式。如果你使用過pytest,那么實際上相當于已經(jīng)使用過Pluggy了,雖然你還不知道它。
7.把CSV文件轉(zhuǎn)換到API中:DataSette
DataSette是一個神奇的工具,它可以很容易地把CSV文件轉(zhuǎn)換為全特性的只讀RESTJSONAPI,同時,不要把它和Dataset庫混淆。Datasette有許多特性,包括創(chuàng)建圖表和geo(用于創(chuàng)建交互式地圖),并且很容易通過容器或第三方網(wǎng)絡(luò)主機進行部署。
8.處理環(huán)境變量等:Envparse
如果你不想在源代碼中保存API密鑰、數(shù)據(jù)庫憑證或其他敏感信息,那么你便需要解析環(huán)境變量,這時候envparse是最好的選擇。Envparse能夠處理環(huán)境變量、ENV文件、變量類型,甚至還可以進行預(yù)處理和后處理(例如,你想要確保變量名總是大寫或小寫的)。
以上內(nèi)容為大家介紹了用于業(yè)余項目的優(yōu)秀Python庫,希望對大家有所幫助,如果想要了解更多Python相關(guān)知識,請關(guān)注IT培訓(xùn)機構(gòu):千鋒教育。http://www.jsszjs.cn/