正则表达式和文本挖掘(Text Mining)

在进行文本挖掘时,TSQL中的通配符(Wildchar)显得功能不足,这时,使用“CLR+正则表达式”是非常不错的选择,正则表达式看似非常复杂,但,万变不离其宗,熟练掌握正则表达式的元数据,就能熟练和灵活使用正则表达式完成复杂的Text Mining工作。 

一,正则表达式的特殊字符

1,常用元字符

用以匹配特定的字符(字母,数字,符号),注意字母是区分大小写的:

  • . :匹配除换行符以外的任意字符
  • \w :匹配字母或数字或下划线或汉字
  • \s :匹配任意的空白符
  • \d :匹配数字
  • \b :匹配单词的开始或结束
  • ^ :匹配字符串的开始
  • $ :匹配字符串的结束
  • \k :引用分组名,例如:\k<group_name>,表示引用名字为group_name的分组
  • \group_number:group_number是分组的组号,1,2,3等,表示通过组号引用分组

2,重复字符或分组

指定前面一个字符或分组重复的次数: