我研究了如何在scikit learn中实现标记化,并找到了以下正则表达式(来源):
token\u pattern=r“(?u)\b\w\w+\b”
正则表达式非常简单,但我以前从未见过(?u)部分。有人能给我解释一下这部分在做什么吗
它打开此表达式的re.U(re.UNICODE)标志
从模块文档中:
(?iLmsux)(集合
'i','L','m','s','u','x')中的一个或多个字母)组匹配空字符串;这些字母为整个正则表达式设置了相应的标志:re.I(忽略大小写)、re.L(取决于区域设置)、re.M(多行)、re.S(点匹配全部)、re.U(取决于Unicode)和re.X(详细)。(标志在模块内容中进行了描述。)如果希望将标志作为正则表达式的一部分包含,而不是将标志参数传递给re.compile()函数,则此选项非常有用