Python爬虫04:匹配分组

  • 内容
  • 相关

正则表达式 - 匹配分组

目标

  • 知道引用分组匹配到的数据对应的正则表达式代码

1. 匹配分组相关正则表达式

代码 功能
| 匹配左右任意一个表达式
(ab) 将括号中字符作为一个分组
\num 引用分组num匹配到的字符串
(?P<name>) 分组起别名
(?P=name) 引用别名为name分组匹配到的字符串

示例1:|

需求:在列表中["apple", "banana", "orange", "pear"],匹配apple和pear

import re # 水果列表 fruit_list = ["apple", "banana", "orange", "pear"] # 遍历数据 for value in fruit_list: # |    匹配左右任意一个表达式 match_obj = re.match("apple|pear", value) if match_obj:
        print("%s是我想要的" % match_obj.group()) else:
        print("%s不是我要的" % value) 

执行结果:

apple是我想要的
banana不是我要的
orange不是我要的
pear是我想要的 

示例2:( )

需求:匹配出163、126、qq等邮箱

 import re

match_obj = re.match("[a-zA-Z0-9_]{4,20}@(163|126|qq|sina|yahoo)\.com", "hello@163.com") if match_obj:
    print(match_obj.group()) # 获取分组数据 print(match_obj.group(1)) else:
    print("匹配失败") 

执行结果:

hello@163.com
163 

需求: 匹配qq:10567这样的数据,提取出来qq文字和qq号码

import re

match_obj = re.match("(qq):([1-9]\d{4,10})", "qq:10567") if match_obj:
    print(match_obj.group()) # 分组:默认是1一个分组,多个分组从左到右依次加1 print(match_obj.group(1)) # 提取第二个分组数据 print(match_obj.group(2)) else:
    print("匹配失败") 

执行结果:

qq
10567 

示例3:\num

需求:匹配出<html>hh</html>

match_obj = re.match("<[a-zA-Z1-6]+>.*</[a-zA-Z1-6]+>", "<html>hh</div>") if match_obj:
    print(match_obj.group()) else:
    print("匹配失败")

match_obj = re.match("<([a-zA-Z1-6]+)>.*</\\1>", "<html>hh</html>") if match_obj:
    print(match_obj.group()) else:
    print("匹配失败") 

运行结果:

<html>hh</div> <html>hh</html> 

需求:匹配出<html><h1>www.itcast.cn</h1></html>

match_obj = re.match("<([a-zA-Z1-6]+)><([a-zA-Z1-6]+)>.*</\\2></\\1>", "<html><h1>www.itcast.cn</h1></html>") if match_obj:
    print(match_obj.group()) else:
    print("匹配失败") 

运行结果:

<html><h1>www.itcast.cn</h1></html> 

示例4:(?P<name>) (?P=name)

需求:匹配出<html><h1>www.itcast.cn</h1></html>

 match_obj = re.match("<(?P<name1>[a-zA-Z1-6]+)><(?P<name2>[a-zA-Z1-6]+)>.*</(?P=name2)></(?P=name1)>", "<html><h1>www.itcast.cn</h1></html>") if match_obj:
    print(match_obj.group()) else:
    print("匹配失败") 

运行结果:

<html><h1>www.itcast.cn</h1></html> 

小结

  • (分组数据):分组数是从左到右的方式进行分配的
您阅读这篇文章共花了:  

本文标签:

版权声明:转载请带上版权原创为《星城

解压密码:若设有密码均为:www.xcooo.cn

收录状态:百度已收录点击查看详情

Python爬虫04:匹配分组

发表评论

您可以选择匿名评论,保护个人隐私 !