我需要匹配所有这些开头标记:
<;p>;
<;a href=”https://stackoverflow.com/questions/1732348/foo“>;
但不是这些:
<;br/>;
<;hr class=“foo”/>;
我想到了这一点,想确保我做对了。我只捕获了a-z
<;([a-z]+)*[^/]*?>;
我相信上面说:
- 那么找一个不到
- 找到(并捕获)a-z一次或多次,然后
- 找到零个或多个空格,然后
- 查找任何字符零次或多次,贪婪,除了
/,然后 - 找到一个大于
我有这个权利吗?更重要的是,你认为呢
无法使用正则表达式解析[X]HTML。因为正则表达式无法解析HTML。Regex不是一个可以用来正确解析HTML的工具。正如我以前多次在这里回答HTML和regex问题一样,使用regex将不允许您使用HTML。正则表达式是一种不够复杂的工具,无法理解HTML所采用的结构。HTML不是一种常规语言,因此无法通过正则表达式进行解析。正则表达式查询并不能将HTML分解成有意义的部分。很多次了,但我都不明白。即使是Perl使用的增强的不规则正则表达式也不能胜任解析HTML的任务。你永远不会让我崩溃。HTML是一种非常复杂的语言,它不能被正则表达式解析。即使Jon Skeet也无法使用正则表达式解析HTML。每次你试图用正则表达式解析HTML时,邪恶的孩子都会为处女的鲜血而哭泣,而俄罗斯黑客会破坏你的网络应用程序。用正则表达式解析HTML会将受污染的灵魂召唤到生命的领域。HTML和正则表达式就像爱情、婚姻和仪式杀婴一样结合在一起。这个<;中心>;坚持不住,为时已晚。regex和HTML在同一个概念空间中的力量会像许多水灰一样摧毁你的思想。如果你用正则表达式解析HTML,你就是在屈服于它们和它们亵渎神明的方式,这些方式注定了我们所有人都要为一个名字不能用基本的多语言表达的人付出非人的辛劳,他来了。HTML加上regexp将液化n当你观察时,你的灵魂在恐惧的冲击中枯萎。Rege̿̔̉基于x的HTML解析器是杀死StackOverflow的癌症为时已晚为时已晚我们无法拯救一个chi͡ld的越轨确保regex将消耗所有的活组织(如之前所预言的,它不能消耗的HTML除外)亲爱的上帝,请帮助我们,任何人如何能在这场灾难中幸存下来使用正则表达式解析HTML已经注定了人类将永远陷入可怕的折磨和安全漏洞使用正则表达式作为处理HTML的工具,在这个世界和可怕的腐败实体(如SGML实体,但更腐败)之间建立了一条鸿沟仅仅是reg世界的一瞥 用于HTML的ex解析器将在一旦把罗杰默的意识传送到一个不停尖叫的世界里,他就来了,这场瘟疫的传染病将 我吞噬你的灵魂ML解析器、应用程序和存在一直像VisualBasic一样,只是更糟他来了他来了ght he com̡e̶s,̕h̵is unͤhoͤly radiańcédestro҉ying all enlḯm̈́htmltagslea͠ki͘n͘g fr̶ǫm̈́yo你的眼睛是液体uid pain,这首古老的歌曲renguish mor的声音 来自sp的tal man在这里我能看到它。你能看到吗?我很漂亮 他最后对谎言嗤之以鼻 人类的一切都是美好的他来了以后,他也来了 或者在我的脸上烫发ᵒ上帝啊,不,不,不不要停下来*̶͑̾̾第二部分:第二部分:第二部分:第二部分:第三部分:第二部分:第三部分:第三部分:第三部分:第三部分:第三部分:第三部分:第三部分:第三部分:第三部分:第三部分本月8日,本月8日,本月8日,本本月,本月,本本月月,本本月,本月,本月,本月,本月,本月,本月,本月,本月,本本月,本月,本月,本月,本月,本月,本月,本月,本月,本月,本月,本月,本月,本月,本月,本月,本月,本月,本月,本月,本月,本月,本月,本月,本月,本月,本月,本月,本月,本月,本月,本月,本月,本月,本月,本月,本月,本月,本月,本月,本月,本月,本月,本月,本月,本月,本月,本本月,本月,本月,本月,本月,本月,本本月,本月,本月,本本本月,本本本月,本月,本本̭O̚本校的一个月月内,本校的一个月月内的一个月内,该校的一个月内的一个月内的一个月内的一个月内的一个月内的一个月内的一个月内的一个月内的一个月内的本本本本本本本校的本本本本本校的本本本本本本月月月内的本本本本月月月月月的本本本本本本月月月月月的本本本本本本本月月月月月月月的本本本本本本月月月月的本本本本本月月月的本本本本月月月月月月月月的本本本本本本月月月的8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8日日日日日日,本本本本本本本本本本本本本本本本本月月月月月月月月月月的本本本本本本本本本本̝
您尝试过使用XML解析器吗
主持人备注
此帖子已锁定,以防止对其内容进行不适当的编辑。这篇文章看起来和它应该看到的一模一样——它的内容没有问题。请不要为了引起我们的注意而标记它