这篇SQL Server应用技巧的文章解释了NULLS对数据操作的影响,以及通过内部连接和外部连接得到不同的查询结果。
SQL Server 开发人员必须了解两件事情:首先,内部连接和外部连接的差异;其次,NULLS对两种连接操作的影响。这篇文章就涵盖了这两个方面。
让我们一步步来分析问题。首先,内部连接和外部连接的差异,然后,查询中NULLS的影响。为了研究内部连接和外部连接的差异,我们需要一些样例数据。
假设我们有两个数据表T1和T2,每个表中都含有数据列Testjoin。在数据表T1中,Testjoin列的数据值是1,2,3。在T2中,Testjoin列的数据值是NULL,2,3。基于Testjoin列的内部查询将只会返回两行,其中数值1和NULL无法连接。然而当为外部连接时,数值1和NULL却可以连接。例如,下面查询语句的返回值就是那些下了订单的客户所在的行。
SELECT CustomerID, OrderID FROM Customers Inner Join Orders
On Customers.CustomerID = Orders.CustomerID
(在许多商务交易中,这么做是有根据的,一些商务交易中,甚至规定了客户必须至少下一个订单。在我看来,数据库的定义阶段就应该反映这些商务交易规则,而不是在某些中间阶段。当然,也存在着一些不同的情况。)
下面是一个外部连接:
SELECT CustomerID, OrderID FROM Customers LEFT OUTER JOIN Orders
OnOrders.CustomerID = Customers.CustomerID
它的返回值是所有的客户列表,而不管客户是否下了订单。
运行 列表A中的脚本来创建一个测试表格.
下面的SQL语句对外部连接和内部连接进行了比较:
SELECT  InnerOuter.T1.T1ID, InnerOuter.T1.NameAS Name1,
        InnerOuter.T2.T2ID, InnerOuter.T2.NameAS Name2
FROM    InnerOuter.T1 LEFT OUTER JOIN
               InnerOuter.T2 ON InnerOuter.T1.T1ID = InnerOuter.T2.T1ID
当运行了脚本中的两个查询之后,你会发现内部连接返回两行,而外部连接返回了三行。即使再添加第三个数据表,结果仍是遵循同样的规则。如 列表B示:
如果你在select查询语句中加了第三个表格,仍会得到同样的结果:内部连接返回两行,外部连接返回三行。如 列表C示:
下面看看NULLS对不同的集合函数的影响。为了更好的理解,在表T2上增加一列空的money列,称为Amount。在T2种增加一些行数据,如下所示:
T2ID  T1ID  Name  Amount
1     1     T2Text1     NULL
2     NULL  T2Text2     NULL
3     3     T2Text3     120.0000
4     1     T2Text4     123.0000
5     1     T2Text5     234.0000
6     3     T2Text6     345.0000
NULL  NULL  NULL  NULL
有三行数据T1ID列的值是1,其中有一行的Amount值是NULL。有两行数据的T1ID值是3,这两行数据的Amount值都不为空(你还可以增加更多的行,但要确保行数目和Amount列为NULL的数目也不同)。
现在,运行下面的查询语句:
SELECT  InnerOuter.T1.T1ID,
        Sum(InnerOuter.T2.Amount)AS TotalAmount,
        Count(InnerOuter.T2.T1ID)AS NumberOfRows,
        Count(InnerOuter.T2.Amount)AS NumberOfAmounts,
        Avg(InnerOuter.T2.Amount)AS AverageAmount
FROM    InnerOuter.T1 LEFT OUTER JOIN
        InnerOuter.T2 ON InnerOuter.T1.T1ID = InnerOuter.T2.T1ID
GROUP BY
        InnerOuter.T1.T1ID
结果如下:
1     357.00      3     2     178.50
2     NULL  0     0     NULL
3     465.00      2     2     232.50
第一行的返回结果表明:如果按照T1ID列统计,你将得到正确的行数,但是如果是按照Amount列统计,得到的将是非NULL值的行数。需要注意的是:平均值是按照非NULL值的数目进行计算的,而不是总行数。
你可能会认为这些事例并不真实,因为表格之间的联系都是人为给定的。并且在实际中,似乎不允许外关键字为NULL。然而,我的确在数据库中发现存在着这样的情况。例如,HR招聘了一名新雇员,但是还没有安排他的工作部门;又例如,我们将一名客户加入到数据库中,但是还没为其安排一名销售代表。
有很多方法处理类似这样信息缺失的情况。在我看来,最糟糕的处理方法就是在添加所谓的0th行,当外关键字是NULL时,就使用0值来代换。这样,外关键字就永远不会是NULL。这一方法会造成两个问题:1)通过向数据表中引进一种新的数据类型,从概念上伪造了一个数据实体。然而关系数据库认为数据表中都是确实存在的数据类型;2)它将查询操作的处理变得更加的复杂化,因为你要将查询结果中含0的这些行删除。