Tag: 采集预览模式: 普通 | 列表
2010-05-22 20:34
2010-05-22 20:34

终于搞清楚怎么采集网站了,辛苦。

辛苦了半天,终于明白了,网站是怎么采集的了。
具体的思路是,先读出网页源代码,去掉不需要的来减轻搜索量,然后截取需要的字段,去掉回车, (空格)和html代码,写入数据库,搞定,哈哈。今天周末,下周继续,先搞定刷新评分问题,思路和采集差不多,就是批量的问题,多线程。
休息下,看电影去,刚下了《反击》据说不比《血战太平洋》差。

查看更多...

Tags: 采集 网站

分类:开发日志 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 224