网络机器人吧社区

[读书笔记]Python机器学习实践指南

ingenieur 2019-01-10 15:49:36

[美]Alexander T.Combs著,人民邮电出版社,2017年5月第一版。

一般的书籍,读或不读均可。

code: https://github.com/PacktPublishing/Python-Machine-Learning-Blueprints


================================

目录:

第1章 Python机器学习的生态系统

第2章 构建应用程序,发现低价的公寓

第3章 构建应用程序,发现低价的机票

第4章 使用逻辑回归预测IPO市场

第5章 创建自定义的新闻源

第6章 预测你的内容是否会广为流传

第7章 使用机器学习预测股票市场

第8章 建立图像相似度的引擎

第9章 打造聊天机器人

第10章 构建推荐引擎


================================

第1章 Python机器学习的生态系统

1,工作流程:获取->检查&探索->清理和准备->建模->评估->部署

2,request库获取数据

3,pandas库是一个卓越的数据分析工具

4,matplotlib库绘图库鼻祖,Seaborn是专门为统计可视化而创建的库

5,statsmodels,scikit-learn是最流行的统计建模和机器学习库之二


================================

第2章 构建应用程序,发现低价的公寓

1,http://www.import.io抓取房源数据,存为CSV文件

2,使用pandas库从CSV文件导入数据,然后清洗数据

3,通过热图来可视化地检视数据,使用folium库

4,构建回归模型来为公寓估价


================================

 第3章 构建应用程序,发现低价的机票

1,Selenium是个自动化Web浏览器的工具

2,PhantomJS浏览器,没有可视化的用户界面,非常精简

3,BeautifulSoup4,解析页面数据

4,基于密度的空间聚类算法(DBSCAN)识别异常的票价

5,使用http://www.ifttt.com(if This Then That)发送实时提醒


================================

第4章 使用逻辑回归预测IPO市场

1,从IPOScoop.com拉取数据

2,在模型中使用哪些特征(数据列)被称为特征工程,

   如果特征没有信息含量,模型就不会有价值。

3,逻辑分类模型,这里仅是案例,不是投资建议。


================================

第5章 创建自定义的新闻源

1,使用Pocket应用程序创建监督训练的集合

2,使用embed.ly API下载故事的内容

3,自然语言处理基础,建立个性化新闻通讯


================================


第6章 预测你的内容是否会广为流传

1,从ruzzit.com抓取最常被分享的内容

2,随机森林回归(Random forest Regression)算法预测分享的次数


================================


第7章 使用机器学习预测股票市场

1,安装datareder包,从Yahoo或Google等读入标准普尔指数等

2,使用支持向量回归构建模型,使用动态时间规整构建了第二个策略


================================


第8章 建立图像相似度的引擎

1,余弦相似性查找相似的图像,另一个算法是卡方核(chi-squared kernel)

2,深度学习,GraphLab是一个流行的大规模机器学习框架


================================


第9章 打造聊天机器人


1,python NLTK的实现(natural language toolkit)

http://www.nltk.org/_modules/nltk/chat/eliza.html


2,Twilio是一个专注通讯服务的开放PaaS平台,

  通过将复杂的底层通信功能打包成 API 并对外开放,

  让 web、桌面及移动应用可以方便地嵌入短信、语音及 VoIP 功能,

  从而实现云通信的功能。

  https://www.twilio.com/


================================


第10章 构建推荐引擎

1,协同过滤,优点是没有必要手动创建特征,缺点是a)没有大量的项目和用户则无法正常工作,

   b)当项目数量远远超过可能被购买的数量时,效用矩阵会有稀疏性

2,基于内容的过滤,优点是不需要大量的用户,缺点是定义正确的特征可能是一个挑战

3,推荐引擎同时使用这两项技术,称为混合系统



 


Copyright © 网络机器人吧社区@2017