Please enable JavaScript.
Coggle requires JavaScript to display documents.
人工智能 (数据分析软件 (SAS分析软件 (SAS分析软件, SAS 英文全称是Statistical Analysis System,…
人工智能
数据分析软件
-
SAS分析软件
-
SAS 英文全称是Statistical Analysis System, 由美国北卡罗来纳州立大学开发的统计分析软件,它是一个模块化、集成化的大型应用软件系统,
-
-
-
-
-
Minitab软件
-
-
它也提供了便捷的功能,例如简化的工作流, 使用全面的统计量来探索数据的方法,以及可视化的图形报表。
-
-
-
-
-
-
-
-
-
爬虫SPIDER
大数据时代,数据获取的方式
- 企业生产的用户数据:大型互联网公司有海量用户,所以他们积累数据有天然的优势。有数据意识的中小型企业,也开始积累的数据。
- 数据管理咨询公司:通常这样的公司有很庞大的数据采集团队,一般会通过市场调研、问卷调查、固定的样本检测,和各行各业的公司进行合作、专家对话(数据积累很多年了,最后得出科研结果)来采集数据。
- 政府/机构提供的公开数据:政府通过各地政府统计上报的数据进行合并;机构都是权威的第三方网站。
- 第三方数据平台购买数据:通过各个数据交易平台来购买各行各业需要的数据,根据获取难度不同,价格也会不同。
- 爬虫爬取数据:如果市场上没有我们需要的数据,或者价格太高不愿意买,那么就可以招/做一个爬虫工程师,从互联网上定向采集数据。
什么是爬虫
-
爬虫怎么抓取网页数据
网页三大特征
- 网页都有自己唯一的URL(统一资源定位符)来进行定位
-
-
爬虫的设计思路
-
-
-
为什么选择Python做爬虫?
-
- PHP 虽然是世界上最好的语言,但是他天生不是干这个的,而且对多线程、异步支持不够好,并发处理能力很弱。爬虫是工具性程序,对速度和效率要求比较高。
- Java 的网络爬虫生态圈也很完善,是Python爬虫最大的对手。但是Java语言本身很笨重,代码量很大。重构成本比较高,任何修改都会导致代码的大量变动。爬虫经常需要修改部分采集代码。
- C/C++ 运行效率和性能几乎最强,但是学习成本很高,代码成型比较慢。能用C/C++做爬虫,只能说是能力的表现,但是不是正确的选择。
- Python 语法优美、代码简洁、开发效率高、支持的模块多,相关的HTTP请求模块和HTML解析模块非常丰富。
-
-
爬虫基础知识
-
-2. 如何抓取HTML页面:
a,HTTP请求的处理,urllib、urllib2、requests
b,处理后的请求可以模拟浏览器发送请求,获取服务器响应的文件
-3. 解析服务器响应的内容
a, re、xpath、BeautifulSoup4(bs4)、jsonpath、pyquery等
b,使用某种描述性一样来给我们需要提取的数据定义一个匹配规则,符合这个规则的数据就会被匹配。
-4. 如何采集动态HTML、验证码的处理
a,通用的动态页面采集:Selenium + PhantomJS(无界面):模拟真实浏览器加载js、ajax等非静态页面数据
b,Tesseract:机器学习库,机器图像识别系统,可以处理简单的验证码,复杂的验证码可以通过手动输入/专门的打码平台
-
-6 分布式策略 scrapy-reids:
a,scrapy-redis,在Scrapy的基础上添加了一套以 Redis 数据库为核心的组件。
b,让Scrapy框架支持分布式的功能,主要在Redis里做 请求指纹去重、请求分配、数据临时存储。
-
爬虫分类
通用爬虫
-
-
-
-3 搜索引擎如何获取一个新网站的URL:
-
-
- 搜索引擎会和DNS服务商进行合作,可以快速收录新的网站。
-
-
-
-6 搜索引擎排名:
- PageRank值:根据网站的流量(点击量/浏览量/人气)统计,流量越高,网站也越值钱,排名越靠前。
-
-7 通用爬虫的缺点:
- 只能提供和文本相关的内容(HTML、Word、PDF)等等,但是不能提供多媒体文件(音乐、图片、视频)和二进制文件(程序、脚本)等等。
- 提供的结果千篇一律,不能针对不同背景领域的人提供不同的搜索结果。
-
-
-
-
-
-
-
-
-
-
-
-
智能时代
-
-
-
-
-
-
-
-
主要玩家
-
-
-
第三方机构
-
-
-
-
-
-
Meta是一家从事科学文献大数据分析的公司。公司总部位于加利福尼亚州红木城(原多伦多,安大略省,加拿大),并运营Meta Science,一个文学发现平台。该公司于2017年被Chan Zuckerberg Initiative收购.meta .org
生命未来研究所(Future of Life Institute, FLI)
科学家
Fei-Fei Li李飞飞
-
-
斯坦福大学教授、斯坦福大学人工智能实验室与视觉实验室负责人、谷歌云人工智能和机器学习首席科学家,201611-201809
-
-
-
-
SebasTIan Thrun塞巴斯蒂安·史朗
主要凭借在机器人技术领域的研究成果而闻名,谷歌无人车之父
-
-
-
-
-
-
-
-
-
-
机器学习
机器学习
本质上是通过数学算法来解析数据的规律,学习相关的规律并且用来预测和决策
-
-
-
-
-
-
-
-
-
-