要用正则表达式提取html文件所有的段落，就是和之间的，求解

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 5092 天前的主题，其中的信息可能已经有所发展或是发生改变。

HTML

正则表达式

段落

28 条回复 1970-01-01 08:00:00 +08:00

lhj2100

2012-01-11 21:58:06 +08:00

不明白楼主的需求用空格替换不就可以了么..

hanbaoo

2012-01-11 22:01:12 +08:00

那正则表达式怎么写呢？

hanbaoo

2012-01-11 22:01:28 +08:00

@lhj2100 那正则表达式怎么写呢？

qlqsh

2012-01-11 22:04:55 +08:00

记不清了，好久没碰正则了，你找篇文章看下吧，特简单。10分钟基本就解决了。

gfreezy

2012-01-11 22:07:53 +08:00

不明白需求 +1
如果只是把所有的 直接的内容匹配出来

regrex = r'(.*?)'
paragraphs = re.findall(regrex, html_content)

应该可以，没测试。

fature

2012-01-11 22:10:09 +08:00

@gfreezy
就是随便一个网站可以顺利截取比如要 之间的数据
但如果里面的东西分段了
就截取不到

gfreezy

2012-01-11 22:16:35 +08:00

@fature beautifulsoup，xpath什么的可以处理这个。
用js来抓 http://www.phantomjs.org/

fature

2012-01-11 22:28:04 +08:00

@gfreezy 数据量大的时候效率太低了

chuck911

2012-01-11 22:39:16 +08:00

pyquery/phpquery
类jquery语法
我抓取都用这种，懒得写正则

gfreezy

2012-01-11 22:42:04 +08:00

@fature beautifulsoup，xpath+lxml效率不低啊，况且一个页面，再大也没多少数据啊。
phantomjs是直接用Qt的webkit内核，跟浏览器差不多，不会效率很差啊。

evlos

2012-01-11 22:48:51 +08:00

preg_match_all('/(.*?)<\/p>/i',$data,$result); //PHP的，楼上已经有Python的了

fature

2012-01-11 22:53:42 +08:00

@gfreezy 页面有几千个>_<

lyxint

2012-01-11 23:00:11 +08:00

python的要加re.DOTALL这个flag, 不然会漏结果

lyxint

2012-01-11 23:03:03 +08:00

用张教主的txt_wrap_by_all
def txt_wrap_by(begin, end, html):
if not html:
return ''
start = html.find(begin)
if start >= 0:
start += len(begin)
end = html.find(end, start)
if end >= 0:
return html[start:end].strip()

def txt_wrap_by_all(begin, end, html):
if not html:
return ''
result = []
from_pos = 0
while True:
start = html.find(begin, from_pos)
if start >= 0:
start += len(begin)
endpos = html.find(end, start)
if endpos >= 0:
result.append(html[start:endpos].strip())
from_pos = endpos+len(end)
continue
break
return result

ps = txt_wrap_by_all('', '', html)

lyxint

2012-01-11 23:04:52 +08:00

lyxint

2012-01-11 23:05:14 +08:00

https://gist.github.com/1595083.js

lyxint

2012-01-11 23:05:39 +08:00

怎么贴代码啊??

https://gist.github.com/1595083

flyingkid

2012-01-11 23:07:45 +08:00

@lyxint 把github的https去掉就可以了，带https抓不到。

flyingkid

2012-01-11 23:08:15 +08:00

换成了http
http://gist.github.com/1595083

gfreezy

2012-01-11 23:14:07 +08:00

@fature 不多，曾经公司要爬新浪博客，爬了个把星期。。。--
千把页面还好。。。

hanbaoo

2012-01-11 23:14:51 +08:00

谢谢ls >_<

ywjno

2012-01-11 23:17:01 +08:00

正则(.*?)的效率不低的

fature

2012-01-11 23:21:36 +08:00

@flyingkid 辛苦了，这个跟正则表达式比起来效率可能低了点，我也想到过

lyxint

2012-01-12 00:03:46 +08:00

@fature 字符串下标操作比re要慢??? 不可能的.

让数据说话.

http://gist.github.com/1595083.js?file=test.py

http://gist.github.com/1595083.js?file=result

lyxint

2012-01-12 00:07:31 +08:00

index.html是wget http://news.sina.com.cn/ 存到本地的

kojp

2012-01-12 00:22:42 +08:00

手机党伤不起 ........

Php.的话 ,我经常加个 ius之类的多试几次就能搞定

Python的话 ,结合 beautiful soupv用还不错 ....

lyxint

2012-01-12 00:31:55 +08:00

@kojp 正则比单纯的字符串操作慢, beatifulsoup那就更慢了. beautifulsoup累死累活建了dom树, 你只取和之间的内容, 太浪费了.

真想用什么库, 那就HTMLParser (beautifulsoup也用了), 很简单.

fature

2012-01-12 10:32:39 +08:00

@lyxint 是一个朋友问我的，我对正则表达式不太熟，而且在做别的事，就在这里问了，我也给她建议过用html解析器，或者直接操作字符串处理，但是naive地以为正则表达式比较快（对正则的性能不太熟悉），我也都还没测试

谢谢你啦

要用正则表达式提取html文件所有的段落，就是<p>和</p>之间的，求解