欢迎光临
我们一直在努力

国内常见博客的采集办法

接到一个客户的单子,采集国内常见博客指定用户的文章。经整理发现,这些博客都加上了防采集技术。主要是采用隐藏或者Js获取文章列表、内容采用多模板防采集技术等。

以下是一些解决办法。

一,搜狐博客的列表获取办法

防采集技术:列表采集JS调用,无法直接获取到列表
真实链接:http://luis-scola.blog.sohu.com/action/v_frag-ebi_c81c19b792-pg_1/entry/
链接构成:博客地址,随机变量,分页值
采集方法:搜索var _ebi = 'c81c19b792';获取10个字的随机值即可。
二,新浪博客列表获取方法

从页面中查找代码:var uid = "1570700695";取得“1570700695”这个数字,用用户博客ID
文章列表链接:http://blog.sina.com.cn/s/indexlist_1570700695_2.html
三,网易博客列表获取方法

目前还没有找到列表地址
四,百度空间列表获取方法

百度空间最为简单
列表格式:http://hi.baidu.com/%C3%C9%B9%C5%C0%C7%B5%C0/blog/index/1

赞(0) 打赏
未经允许不得转载:刘旭的人个博客 » 国内常见博客的采集办法
分享到: 更多 (0)
标签:

评论 抢沙发

评论前必须登录!

 

QQ :13945502电话:13913571631

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

×
订阅图标按钮