VBGood网站全文搜索 Google

搜索VBGood全站网页(全文搜索)

VB爱好者乐园(VBGood)

 找回密码
 立即注册
搜索
查看: 3278|回复: 7

[原创] 我的最新小产品:网页正文智能提取器

[复制链接]
发表于 2013-1-17 10:48:43 | 显示全部楼层 |阅读模式
在看了下面这个贴子后一直对提取网页正文感兴趣,求此文作者提供源码,人家不回应
于是自己动手做了一个:

http://www.vbgood.com/thread-94859-1-1.html

网页正文提取器.rar (22.14 KB, 下载次数: 563)

本帖被以下淘专辑推荐:

 楼主| 发表于 2013-1-17 10:49:35 | 显示全部楼层
gettxt.JPG
回复 支持 反对

使用道具 举报

发表于 2013-1-17 11:00:30 | 显示全部楼层
我建议使用 inet 或者 xmlhttp 等任何一种你熟悉的办法下载源码之后
再创建Webbrowser的docment对象(好像是这么叫) 将下载的网页源码放到innerhtml
然后在用innertext取出,就可以了
回复 支持 反对

使用道具 举报

 楼主| 发表于 2013-1-17 11:07:10 | 显示全部楼层
用 inet 或者 xmlhttp 下载速度是要快很多,而且再显示的话,很多广告就不会显示了
现在是直接用webbrowser浏览,并根据标记文字多少、符号多少、一个标记内嵌套标记多少等条件判断得到的,这个速度很慢,算法还要再修改
现在有一些小说下载软件,这方面做得不错,下载速度也快,不过也有的是使用规则的,规则可能会随着网站的程序的更新而失效。
回复 支持 反对

使用道具 举报

发表于 2013-1-17 18:00:56 | 显示全部楼层
表示用asp.net已经做到了且已经自动采集+发布

点评

这方面的代码网上是可以找到的,有的程序本身就集成的  发表于 2013-1-18 00:04
回复 支持 反对

使用道具 举报

 楼主| 发表于 2013-1-18 10:52:52 | 显示全部楼层
回楼上,我的思路:用webbrowser浏览,并根据标记文字多少、符号多少、一个标记内嵌套标记多少等条件判断得到正文

根据xingjing 的提示,昨晚测试用xmlhttp先下载,再webbrowser document取文字,速度快多了,感谢
回复 支持 反对

使用道具 举报

 楼主| 发表于 2013-1-19 00:15:03 | 显示全部楼层
今天遇到一个小说网,正文中居然插入了很多的图片文字

http://www.wcxiaoshuo.com/wcxs-9028-2228343/



这个还真是采集了也不完整,除非知道这些图片代表的文字,或者可以智能到根据上下文识别图片,或干脆OCR图片识别
回复 支持 反对

使用道具 举报

发表于 2013-12-5 21:35:49 | 显示全部楼层
作品创意不错,呵呵。。希望还有更好的。。。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

文字版|手机版|小黑屋|VBGood  

GMT+8, 2020-6-2 00:00

VB爱好者乐园(VBGood)
快速回复 返回顶部 返回列表