终于搞清楚怎么采集网站了,辛苦。

辛苦了半天,终于明白了,网站是怎么采集的了。
具体的思路是,先读出网页源代码,去掉不需要的来减轻搜索量,然后截取需要的字段,去掉回车, (空格)和html代码,写入数据库,搞定,哈哈。今天周末,下周继续,先搞定刷新评分问题,思路和采集差不多,就是批量的问题,多线程。
休息下,看电影去,刚下了《反击》据说不比《血战太平洋》差。

文章来自: 本站原创
引用通告: 查看所有引用 | 我要引用此文章
Tags: 采集 网站
相关日志:
评论: 0 | 引用: 0 | 查看次数: 220
发表评论
昵 称:
密 码: 游客发言不需要密码.
内 容:
验证码: 验证码
选 项:
虽然发表评论不用注册,但是为了保护您的发言权,建议您注册帐号.
字数限制 1000 字 | UBB代码 开启 | [img]标签 关闭