分享一个有趣的小发现

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 3122 天前的主题，其中的信息可能已经有所发展或是发生改变。

只要在 github 搜索 spider 、 crawler 、 scrapy 、 scrapper 等一些跟数据抓取相关的项目基本上都是中国人写的，好像国内对数据抓取都特别狂热，特别 python 都已经变成了爬虫工具了，跟一些不了解 python 的朋友说 python ，一些朋友反映就是写爬虫的那个工具是吧！

第 1 条附言 · 2016-04-20 12:40:32 +08:00

我犯贱的补充一句，其实我个人也在写一个爬虫项目，但是我认为数据处理和存储比抓取要难度大多了，实现了一些功能（本来就没啥功能）再加上个人代码水平实在不咋地，感觉实在是一个人开发太累了，有人有兴趣一起开发么？如果有的话，就打算开源出来了

第 2 条附言 · 2016-04-21 14:09:07 +08:00

有点歪楼了，很多都涉及到法律了！基本上两派声音， 1.外国人比国人更狂热的做这个但是不怎么放出来 2.国内由于培训教程都是教你怎么弄，大家都这么学产生的

Python

爬虫

spider

Scrapy

34 条回复 • 2016-04-21 11:02:07 +08:00

loading

2016-04-20 04:55:11 +08:00 via Android

楼主，听说过版权吗？

markocen

2016-04-20 05:24:35 +08:00

这是为什么呢

hansnow

2016-04-20 07:39:37 +08:00

因为国内很多做数据科学方面的人（尤其是学生）很喜欢用吧，大多数人学完 Python 的基本语法之后干的第一件事儿就是写个爬虫

murmur

2016-04-20 07:46:33 +08:00

nutch 是啥东西呢？
于是说版权国内研究到不说国内看不起 java 的多吧？

aksoft

2016-04-20 08:19:43 +08:00

只能说明大部分人在追风，看书，没有创新能力

murmur

2016-04-20 08:21:41 +08:00

scrapy 这个怎么看也不像国人做的项目。。

mkeith

2016-04-20 08:28:46 +08:00

这也能扯到国内国外啊...

hechaqu

2016-04-20 09:19:10 +08:00

那这说明什么呢？

Mark24

2016-04-20 09:26:11 +08:00

大部分的入门教程都是以爬虫吸引眼球的

dibage

2016-04-20 09:30:49 +08:00

怎么说呢，国内用 py 的大部分分为两种：写正常脚本的，如机器学习、网站建设；写黑客脚本的，如扫描、爬虫。。当然，后者比较容易入门

hxndg

2016-04-20 11:15:36 +08:00

我感觉是主要是因为 python 写的很快。。。。
虽然我也在学 c++，但是直接上手用 c++写爬虫还是挺难的。。。。毕竟我夹生。。。

Wangxf

2016-04-20 11:22:57 +08:00

爬虫很容易获得成就感，就跟第一次接触到前端的人一样，而且在外人看来也很装逼，“爬虫”一词让外行不明觉厉

Surfer

2016-04-20 11:43:36 +08:00

@markocen 喜欢这个像素头像！

SlipStupig

2016-04-20 12:28:49 +08:00

@murmur 我说的是基本，代表很多，而不是全部，你非要找出例外出来，我只能告诉你里面还有事基于其中还有很大一部分是基于 scrapy 开发的，你可以继续找例外出来

menc

2016-04-20 12:38:45 +08:00

@SlipStupig 你这个有偏颇啊
最大的爬虫项目 scrapy 是外国人写的
外国人还不满足，成立了一个爬虫项目的联盟叫 scraping hub ，你可以看看，很多 python 下名气很大的爬虫框架加入。
外国人还专门写书， Oreilly 的新书 web scraping with python 可以看看，各种爬虫的奇淫巧计都有，甚至还包括了用 nlp 领域的知识来做更厉害的爬虫。

allan888

2016-04-20 12:50:09 +08:00

@SlipStupig 你看到了表面而已。
事实是数据大家都需要，不存在国内就更狂热。
只是国外的大网站 API 更开放，又或者有些网站提供数据直接下载，没必要自己爬而已。
在深层次就是国外开放了也没人能超过你，国内公司危机意识强点。
非要说国别的区别的话，我感觉国内那种看见点表面就扯国别的人要比国外多倒是真的。
@hansnow 你对比过？你可以去 kaggle 看看国外是不是也用 Python 。

murmur

2016-04-20 13:58:12 +08:00

@SlipStupig 万物基于米 ui 开发所以是中国人搞的多

yangzj1992

2016-04-20 14:03:11 +08:00

我也认为国外公司 API 确实更开放是一个原因

zonghua

2016-04-20 14:36:29 +08:00

Python 的编码这么痛心，真不知道你们是怎么处理的。

sensui7

2016-04-20 15:12:18 +08:00

其实我早就发现国内网上很多 php, python 爬虫的文章, 而英文资料就没有这么多.
举个例子, 很多新手, 想做点东西, 往往会爬豆瓣, 虾米这类的站点玩玩. 你说他有需求吗? 有啥需求, 就是玩玩. 玩什么不行, 但是可能爬取别人数据这样有意思.

fifuygg

2016-04-20 16:04:35 +08:00

@zonghua python3 + ubuntu 没有遇到过编码问题了

就像你第一个 web 应用基本都是博客而不是商城一样

wy315700

2016-04-20 16:42:22 +08:00

国外版权管的紧，
爬数据理论上是侵犯版权的事情。

yumijie

2016-04-20 17:03:43 +08:00

国外(西方发达国家)扒别人的数据要负法律责任的概率远远大于国内吧,而且惩罚很重.国内?国内大企业带头盗窃数据!要不那么多手机短信垃圾什么的怎么来的?

penjianfeng

2016-04-20 19:22:41 +08:00

我想起了开源中国的红薯之前收到过一个老外的邮件:说他想抓取一下开源中国的数据,然后还问他数据结构还是什么来着-_-||

SlipStupig

2016-04-20 20:37:52 +08:00

@yumijie 很多都是你自己留下的

kirisetsz

2016-04-21 00:38:58 +08:00

@zonghua 没有 HTTP Header 没有 <meta/> 还有 chardet 呀 (笑)

@loading @wy315700 @yumijie 搜索引擎爬取页面算不算侵犯版权呢 (笑)

爬虫框架很 OK 啊，永远不嫌少，语法越甜越好。小爬虫外国人写的也多，只是不放到 GitHub 上罢了 curl awk sed 解决的事情为什么用 Python 然后放到 GitHub 上去呢？

wy315700

2016-04-21 00:45:00 +08:00

@kirisetsz 搜索引擎只能爬公开内容吧，你看 facebook 里面的内容哪个搜索引擎能搜到

Slienc7

2016-04-21 01:37:32 +08:00 via Android

@kirisetsz 有可能算，比如 360 被告过不遵守 robots.txt ，当然这个问题不在爬取阶段。
针对某一站点爬取频率过高完全可以看作攻击，这种情况可以起诉。

dapang1221

2016-04-21 02:20:49 +08:00 via Android

学会 Python 后第一件事准是写爬虫，写爬虫爬的第一个网站准是豆瓣……这都是套路（笑）

kirisetsz

2016-04-21 09:27:56 +08:00 via Android

@wy315700 @Slienc7 所以只要遵守 robot 就可以了，不过我不认为这是楼主想谈论的问题，爬虫为什么国人的多这个原因不应该扯上版权问题…

wy315700

2016-04-21 09:52:58 +08:00

@kirisetsz 不就是喜欢爬别人数据然后自己做个站吗，或者是爬别人数据做分析

Slienc7

2016-04-21 10:38:30 +08:00 via Android

@kirisetsz 我很少见到有私人爬虫遵守 Robots.txt 的。某些不可直接被索引的页面，网站所有人可能默认不会被爬取，因为正常搜索引擎爬虫不会这么做，但是私人爬虫爬取往往会针对某一网站进行不友善的抓取，例如注册大量账号，使用大量代理 IP ，还有部分可能会先在某网站为账号购买收费服务，然后再抓取某些不应被抓取的部分，这可能就会侵犯权利人权利了。
爬虫的泛滥客观上简化了许多所谓个人站长盗版其他网站的过程，这个应该是主要的潜在版权问题。

jy02201949

2016-04-21 11:00:51 +08:00

就跟很多学完 php 用来撸博客一样
1 、不仅有现成的轮子，也有从零教你 XXX 的教程，容易上手
2 、撸的过程中能学到很多其他的东西，博客要怎么部署到 vps 上，爬虫怎么构造请求怎么识别验证码等等
3 、有实用性，弄完可以自己用，写博客、爬小说漫画

jy02201949

2016-04-21 11:02:07 +08:00

。。。本来想回复某一层的，结果忘记 @了，导致回复文不对题