第5章：字符串和正则表达式

字符串连接

方法	示例
`array.join()`	`str = ["a", "b", "c"].join("");`
`string.concat()`	`str = "a";str = str.concat("b", "c");`

加`+`和加等`+=`操作符

Firefox和编译器合并

当字符串通过这种方式合并在一起时，由于运行期没有中间字符串，所以花在连接过程的时间和内存可以减少到零。

数组项合并

Array.prototype.join方法将数组的所有元素合并成一个字符串，它接收一个字符串参数作为分隔符插入每个元素的中间。如果传入的是空字符，可以简单地将数组所有元素连接起来。

`String.prototype.concat`

字符串的原生方法concat能接收任意数量的参数，并将每一个参数附加到所调用的字符串上。

str = String.prototype.concat.apply(str, array);

正则表达式工作原理

正则表达式处理的基本步骤：

第一步：编译

当创建一个正则表达式（正则直接量或RegExp构造函数），浏览器验证表达式，然后转化为一个原生代码程序，用于执行匹配工作。

第二步：设置起始位置

当正则进入使用状态，首先要确定目标字符串的起始搜索位置。

第三步：匹配每个正则表达式字元

正则表达式知道起始位置，它会逐个检查文本和正则表达式模式。当一个特定的字元匹配失败时，正则表达式会尝试回溯到之前尝试匹配的位置上，然后尝试其他可能的路径。

第四步：匹配成功或失败

理解回溯

正则表达式匹配目标字符串时，它从左到右逐个测试表达式的组成部分，确认是否能找到匹配项。如果遇到量词*，+?，{2,}，正则表达式需决定何时尝试匹配更多字符；如果遇到分支|，必须从可选项中选择一个尝试匹配。

分支与回溯P89

重复与回溯P90

回溯失控P91

解决方案：具体化P92

使用预查和反向引用的模拟原子组P93

原子组的写法?>...，省略号表示任意正则表达式的模式，它是一种具有特殊反转性的非捕获组。一旦原子组中存在一个正则表达式，该组的任何回溯位置都会被丢弃。这为HTML正则表达式的回溯问题提供了一个更好的解决方案。

嵌套量词与回溯失控P94

嵌套量词是指量词出现在一个自身被重复量词修饰的组中。(x+)*

变得更糟P95

基准测试的说明

何时不用正则表达式

charAt()方法读取特定位置上的字符。字符串方法slice、substr以及substring都可用在特定位置上提取并检查字符串的值。indexOf和lastIndexOf方法非常适合查找特定字符串的位置，或判断它们是否存在。

去除字符串首尾空白

使用正则表达式去除首尾空白

if (!String.prototype.trim) {
    String.prototype.trim = function () {
        return this.replace(/^\s+/, '').replace(/\s+$/, '');
    }
}

不使用正则表达式去除首尾空白P102

混合解决方案

用正则表达式方法过滤头部空白，用非正则过滤尾部字符。

String.prototype.trim = function () {
    var str = this.replace(/^\s+/, ""),
        end = str.length - 1,
        ws = /\s/;
    while (ws.test(str.charAt(end))) {
        end--;
    }
    return str.slice(0, end + 1);
};

该方案在循环中使用一个正则来检查字符串的末尾字符是否为空白。

所有的trim方法的总趋势：在基于正则的方案中，字符串的总长度比修剪掉的字符数量更影响性能；而非正则从字符串末尾反向查找，不受字符串总长度的影响，但明显受到修剪空格的数量的影响。

小结

密集的字符串操作和草率地编写正则可能产生严重的性能问题，需要避免这些常见的陷阱：

当连接数量巨大或尺寸巨大的字符串时，数组项合并时唯一在IE7级更早版本中性能合理的方法。
如果不考虑IE7及以下版本的性能，数组项合并时最慢的字符串连接方法之一。推荐使用简单的+和+=操作符替代，避免不必要的中间字符串。
回溯是正则匹配功能的基本组成部分，也是正则的低效之源。
回溯失控发生在正则本应该快速匹配的地方，但因为某些字符串匹配动作导致运行缓慢甚至浏览器崩溃。避免这个问题的方法是：使相邻的字元互斥，避免嵌套量词对同一字符串的相同部分多次匹配，通过重复利用预查的原子组去除不必要的回溯。
提高正则效率的各种技术手段有助于正则更快地匹配，并在非匹配位置上花更少的时间。
正则并不总是完成工作的最佳工具，尤其是只搜索字面字符串的时候。
使用两个简单的正则（一个用来去除头部空白，一个用来去除尾部空白）来处理大量字符串内容能提供一个简洁而跨浏览器的方法。从字符串末尾开始循环向前搜索第一个非空白字符，或将此技术和正则结合起来，会提供一个更好的替代方案，它很少受到字符串长度的影响。