接到一个客户的单子,采集国内常见博客指定用户的文章。经整理发现,这些博客都加上了防采集技术。主要是采用隐藏或者Js获取文章列表、内容采用多模板防采集技术等。
以下是一些解决办法。
一,搜狐博客的列表获取办法
防采集技术:列表采集JS调用,无法直接获取到列表
真实链接:http://luis-scola.blog.sohu.com/action/v_frag-ebi_c81c19b792-pg_1/entry/
链接构成:博客地址,随机变量,分页值
采集方法:搜索var _ebi = 'c81c19b792';获取10个字的随机值即可。
二,新浪博客列表获取方法
从页面中查找代码:var uid = "1570700695";取得“1570700695”这个数字,用用户博客ID
文章列表链接:http://blog.sina.com.cn/s/indexlist_1570700695_2.html
三,网易博客列表获取方法
目前还没有找到列表地址
四,百度空间列表获取方法
百度空间最为简单
列表格式:http://hi.baidu.com/%C3%C9%B9%C5%C0%C7%B5%C0/blog/index/1
评论前必须登录!
注册