1
loading 2016-04-20 04:55:11 +08:00 via Android
楼主,听说过版权吗?
|
2
markocen 2016-04-20 05:24:35 +08:00
这是为什么呢
|
3
hansnow 2016-04-20 07:39:37 +08:00
因为国内很多做数据科学方面的人(尤其是学生)很喜欢用吧,大多数人学完 Python 的基本语法之后干的第一件事儿就是写个爬虫
|
4
murmur 2016-04-20 07:46:33 +08:00 1
nutch 是啥东西呢?
于是说版权 国内研究 到不说国内看不起 java 的多吧? |
5
aksoft 2016-04-20 08:19:43 +08:00
只能说明大部分人在追风,看书,没有创新能力
|
6
murmur 2016-04-20 08:21:41 +08:00
scrapy 这个怎么看也不像国人做的项目。。
|
7
mkeith 2016-04-20 08:28:46 +08:00
这也能扯到国内国外啊...
|
8
hechaqu 2016-04-20 09:19:10 +08:00
那这说明什么呢?
|
9
Mark24 2016-04-20 09:26:11 +08:00
大部分的入门教程都是以爬虫吸引眼球的
|
10
dibage 2016-04-20 09:30:49 +08:00
怎么说呢,国内用 py 的大部分分为两种:写正常脚本的,如机器学习、网站建设;写黑客脚本的,如扫描、爬虫。。当然,后者比较容易入门
|
11
hxndg 2016-04-20 11:15:36 +08:00
我感觉是主要是因为 python 写的很快。。。。
虽然我也在学 c++,但是直接上手用 c++写爬虫还是挺难的。。。。毕竟我夹生。。。 |
12
Wangxf 2016-04-20 11:22:57 +08:00
爬虫很容易获得成就感,就跟第一次接触到前端的人一样,而且在外人看来也很装逼,“爬虫”一词让外行不明觉厉
|
14
SlipStupig OP @murmur 我说的是基本,代表很多,而不是全部,你非要找出例外出来,我只能告诉你里面还有事基于其中还有很大一部分是基于 scrapy 开发的,你可以继续找例外出来
|
15
menc 2016-04-20 12:38:45 +08:00
@SlipStupig 你这个有偏颇啊
最大的爬虫项目 scrapy 是外国人写的 外国人还不满足,成立了一个爬虫项目的联盟叫 scraping hub ,你可以看看,很多 python 下名气很大的爬虫框架加入。 外国人还专门写书, Oreilly 的新书 web scraping with python 可以看看,各种爬虫的奇淫巧计都有,甚至还包括了用 nlp 领域的知识来做更厉害的爬虫。 |
16
allan888 2016-04-20 12:50:09 +08:00
@SlipStupig 你看到了表面而已。
事实是数据大家都需要,不存在国内就更狂热。 只是国外的大网站 API 更开放,又或者有些网站提供数据直接下载,没必要自己爬而已。 在深层次就是国外开放了也没人能超过你,国内公司危机意识强点。 非要说国别的区别的话,我感觉国内那种看见点表面就扯国别的人要比国外多倒是真的。 @hansnow 你对比过?你可以去 kaggle 看看国外是不是也用 Python 。 |
17
murmur 2016-04-20 13:58:12 +08:00
@SlipStupig 万物基于米 ui 开发 所以是中国人搞的多
|
18
yangzj1992 2016-04-20 14:03:11 +08:00
我也认为国外公司 API 确实更开放是一个原因
|
19
zonghua 2016-04-20 14:36:29 +08:00
Python 的编码这么痛心,真不知道你们是怎么处理的。
|
20
sensui7 2016-04-20 15:12:18 +08:00
其实我早就发现国内网上很多 php, python 爬虫的文章, 而英文资料就没有这么多.
举个例子, 很多新手, 想做点东西, 往往会爬豆瓣, 虾米这类的站点玩玩. 你说他有需求吗? 有啥需求, 就是玩玩. 玩什么不行, 但是可能爬取别人数据这样有意思. |
21
fifuygg 2016-04-20 16:04:35 +08:00
|
22
wy315700 2016-04-20 16:42:22 +08:00
国外版权管的紧,
爬数据理论上是侵犯版权的事情。 |
23
yumijie 2016-04-20 17:03:43 +08:00
国外(西方发达国家)扒别人的数据要负法律责任的概率远远大于国内吧,而且惩罚很重.国内?国内大企业带头盗窃数据!要不那么多手机短信垃圾什么的怎么来的?
|
24
penjianfeng 2016-04-20 19:22:41 +08:00
我想起了开源中国的红薯之前收到过一个老外的邮件:说他想抓取一下开源中国的数据,然后还问他数据结构还是什么来着-_-||
|
25
SlipStupig OP @yumijie 很多都是你自己留下的
|
26
kirisetsz 2016-04-21 00:38:58 +08:00
|
28
Slienc7 2016-04-21 01:37:32 +08:00 via Android
@kirisetsz 有可能算,比如 360 被告过不遵守 robots.txt ,当然这个问题不在爬取阶段。
针对某一站点爬取频率过高完全可以看作攻击,这种情况可以起诉。 |
29
dapang1221 2016-04-21 02:20:49 +08:00 via Android 1
学会 Python 后第一件事准是写爬虫,写爬虫爬的第一个网站准是豆瓣……这都是套路(笑)
|
30
kirisetsz 2016-04-21 09:27:56 +08:00 via Android
|
32
Slienc7 2016-04-21 10:38:30 +08:00 via Android
@kirisetsz 我很少见到有私人爬虫遵守 Robots.txt 的。某些不可直接被索引的页面,网站所有人可能默认不会被爬取,因为正常搜索引擎爬虫不会这么做,但是私人爬虫爬取往往会针对某一网站进行不友善的抓取,例如注册大量账号,使用大量代理 IP ,还有部分可能会先在某网站为账号购买收费服务,然后再抓取某些不应被抓取的部分,这可能就会侵犯权利人权利了。
爬虫的泛滥客观上简化了许多所谓个人站长盗版其他网站的过程,这个应该是主要的潜在版权问题。 |
33
jy02201949 2016-04-21 11:00:51 +08:00
就跟很多学完 php 用来撸博客一样
1 、不仅有现成的轮子,也有从零教你 XXX 的教程,容易上手 2 、撸的过程中能学到很多其他的东西,博客要怎么部署到 vps 上,爬虫怎么构造请求怎么识别验证码等等 3 、有实用性,弄完可以自己用,写博客、爬小说漫画 |
34
jy02201949 2016-04-21 11:02:07 +08:00
。。。本来想回复某一层的,结果忘记 @了,导致回复文不对题
|