php用正则表达式匹配URL的简单方法

摘要：在PHP的官网上看到的parse_url()函数的替代方案。结果和parse_url()函数差不多，是使用正则实现的。URI是Web上可用的...

在PHP的官网上看到的parse_url()函数的替代方案。结果和parse_url()函数差不多，是使用正则实现的。URI 是 Web上可用的每种资源 - HTML文档、图像、视频片段、程序等 - 由一个通用资源标志符（Uniform Resource Identifier, 简称"URI"）进行定位。对象分组：

复制代码代码如下:

^(([^:/?#]+):)?(//([^/?#]*))?([^?#]*)(?([^#]*))?(#(.*))?

12 3 4

测试代码如下：

复制代码代码如下:

<?php

$search = '~^(([^:/?#]+):)?(//([^/?#]*))?([^?#]*)(?([^#]*))?(#(.*))?~i';

$url = 'http://www.jb51.net/pub/ietf/uri/#Gonn';

$url = trim($url);

preg_match_all($search, $url ,$rr);

printf("<p>输出URL数据为：</p><pre>%s</pre>n",var_export( $rr ,TRUE));

各分组如下

$1 = http:

$2 = http

$3 = //www.nowamagic.net

$4 = www.nowamagic.net

$5 = /pub/ietf/uri/

$6 = <undefined>

$7 = <undefined>

$8 = #Gonn

$9 = Gonn

上面的正则表达式可以获取URL中的任何一部分，下面的代码则简单一些：

复制代码代码如下:

<?php

// 从 URL 中取得主机名

preg_match("/^(http://)?([^/]+)/i", "http://www.jb51.net/index.html", $matches);

$host = $matches[2];

// 从主机名中取得后面两段

preg_match("/[^./]+.[^./]+$/", $host, $matches);

echo "domain name is: {$matches[0]}n";