正则表达式:电子邮件地址的格式详解,及常见正则表达式符号的详细解释和匹配方式

avatar
作者
筋斗云
阅读量:0

一、第一部分是对该段电子邮件的详解

var Regex = /^(?:\w+\.?)*\w+@(?:\w+\.)*\w+$/;

 

1.^:这个符号表示匹配输入字符串的开始位置。

2.(?:...):这是一个非捕获组(non-capturing group),用于将正则表达式的一部分组合在一起,但不捕获匹配的文本。这对于组织复杂的表达式很有用,特别是当你不需要从匹配的文本中提取子部分时。

3.\w+:\w 匹配任何字母数字字符(等价于 [a-zA-Z0-9_]),+ 表示匹配前面的子表达式一次或多次。因此,\w+ 匹配一个或多个字母数字字符。

4. \.?:. 匹配除换行符 \n 之外的任何单个字符,但在这里它被转义为 \.,表示匹配字面上的点(.)字符。? 表示前面的子表达式(这里是 \.)是可选的,即可以匹配0次或1次。

5.(?:\w+\.?)*:这个非捕获组匹配一个或多个字母数字字符(\w+),后面可能跟着一个点(\.?),这个组合可以重复0次或多次(*)。这允许电子邮件地址的本地部分(@ 符号之前的部分)包含点,如 john.doe。

6. @:字面量字符 @,用于分隔电子邮件地址的本地部分和域名部分。

7. (?:\w+\.)*:与前面的非捕获组类似,但这个组用于匹配域名部分。它匹配一个或多个字母数字字符(\w+),后面跟着一个点(.),这个组合可以重复0次或多次(*)。注意,这里的点没有被转义,因为它在域名部分中是必需的。

8.\w+$:匹配一个或多个字母数字字符(\w+),并且这个序列必须出现在输入字符串的末尾($)。这确保了电子邮件地址的域名部分至少包含一个字母数字字符,并且字符串在这一点结束。

注意

虽然这个正则表达式可以匹配许多常见的电子邮件地址格式,但它并不是完美的。例如,它不允许顶级域名(TLD)包含连字符(如 example-domain.com),尽管现代电子邮件地址和TLD规范允许这样做。此外,它也不考虑国际化电子邮件地址(IDN),这些地址可能包含非ASCII字符。因此,在需要高度准确的电子邮件验证时,最好使用专门的库或API。

二、常见正则表达式符号的详细解释和匹配方式:

1. 基础字符

  • 普通字符:大多数字符(如 'a' 到 'z'、'A' 到 'Z'、'0' 到 '9'、空格、标点符号等)在正则表达式中只匹配它们自己。例如,正则表达式 cat 匹配字符串 "cat"。

2. 特殊字符(元字符)

  • .:匹配除换行符 \n 之外的任何单个字符。例如,a.c 可以匹配 "abc"、"a1c" 等。
  • ^:匹配输入字符串的开始位置。如果设置了多行标志(如某些编程语言中的 m 标志),则 ^ 还匹配每行的开始。例如,^a 匹配以 "a" 开头的字符串。
  • $:匹配输入字符串的结束位置。如果设置了多行标志,则 $ 还匹配每行的结束。例如,a$ 匹配以 "a" 结尾的字符串。
  • *:匹配前面的子表达式零次或多次。例如,zo* 可以匹配 "z"、"zoo" 等。
  • +:匹配前面的子表达式一次或多次。例如,zo+ 匹配 "zo"、"zoo",但不匹配 "z"。
  • ?:匹配前面的子表达式零次或一次。例如,do(es)? 可以匹配 "do" 或 "does"。
  • {n}n 是一个非负整数。匹配确定的 n 次。例如,o{2} 匹配 "foo" 中的 "oo",但不匹配 "o"。
  • {n,}n 是一个非负整数。至少匹配 n 次。例如,o{2,} 不能匹配 "o",但可以匹配 "fooo" 中的所有 "o"。
  • {n,m}nm 是非负整数,其中 n <= m。匹配至少 n 次,但不超过 m 次。例如,o{1,3} 匹配 "foooo" 中的前三个 "o"。

3. 字符类

  • [...]:匹配方括号内的任何字符。例如,[aeiou] 匹配任何一个元音字母。
  • [^...]:匹配不在方括号内的任何字符。例如,[^aeiou] 匹配任何一个非元音字母。
  • [a-z]:匹配任何小写字母。
  • [A-Z]:匹配任何大写字母。
  • [0-9]:匹配任何数字,等价于 \d
  • \d:匹配一个数字字符。等价于 [0-9]
  • \D:匹配一个非数字字符。等价于 [^0-9]
  • \w:匹配任何字母数字字符(包括下划线)。等价于 [A-Za-z0-9_]
  • \W:匹配任何非字母数字字符。等价于 [^A-Za-z0-9_]
  • \s:匹配任何空白字符,包括空格、制表符、换页符等。等价于 [\f\n\r\t\v]
  • \S:匹配任何非空白字符。等价于 [^\f\n\r\t\v]

4. 分组和引用

  • (...):捕获组(Capturing Group),匹配并捕获匹配的子字符串。捕获的组可以通过反向引用(如 \1\2 等)进行引用。
  • (?:...):非捕获组(Non-capturing Group),仅作为整体进行匹配,但不捕获匹配的文本。

5. 边界匹配

  • ^$(已在前面介绍)也用于匹配字符串的开始和结束位置,但它们也可以表示单词的边界,具体取决于上下文和使用的正则表达式引擎。
  • \b:匹配一个单词边界,即单词字符(如字母、数字、下划线)和非单词字符之间的位置。
    \b示例:
  • 匹配完整单词
    • 正则表达式 \bis\b 会匹配字符串 "This is a test" 中的 "is",因为 "is" 前后都有单词边界(前面是空格,后面也是空格)。
    • 它不会匹配 "This is" 中的 "is"(如果 "is" 后面没有空格或其他非单词字符的话),因为在这个上下文中,"is" 后面没有单词边界。但是,如果 "is" 后面紧跟的是标点符号或其他非单词字符,那么 \bis\b 仍然会匹配 "is"。
  • 避免部分匹配
    • 假设我们只想匹配单词 "in",而不希望匹配到像 "input" 这样的单词中的 "in"。使用 \bin\b 可以确保我们只匹配独立的单词 "in"。
  • 与其他字符结合使用
    • \b\w+\b 匹配任何完整的单词(由字母、数字或下划线组成)。\w+ 匹配一个或多个单词字符,而 \b 确保我们匹配的是完整的单词。
  • 注意
    • \b 本身不消耗任何字符,它只是指定了一个位置。因此,在匹配结果中,你不会看到 \b 作为匹配的一部分。
    • 在某些情况下,特别是在处理包含特殊字符(如换行符)的字符串时,\b 的行为可能会受到正则表达式引擎或模式修饰符(如多行模式 m)的影响。
  • 匹配字符串 "one, two, three" 中的所有单词:
    • 正则表达式 \b\w+\b 可以匹配 "one"、"two" 和 "three"。
  • 匹配以 "pro" 开头的单词:
    • 正则表达式 \bpro\w* 可以匹配 "program"、"progress" 和 "pro"(尽管 "pro" 本身只包含单词边界和字母,但 \w* 允许匹配零个或多个单词字符)。


       

我会以“时”为尺,丈量自己的进步,用“嘉”言“嘉”行,努力珍惜时间,向着她一步步迈进!(眼中闪烁着坚定的光芒,透露出对未来的决心和期待)

respect!


 

广告一刻

为您即时展示最新活动产品广告消息,让您随时掌握产品活动新动态!