问题描述: 首先个人并不推荐将Excel作为数据源,因为Excel单元格式会引起特别多的数据转换问题,例如:单元格里明明是2.89,但SSIS抽取到数据库里面之后却变成了2.88999999之类的数据。 这里要介绍的是假如万不得已需要用Excel作为数据源时,经常会需要取得Excel每一行的行号,当然假如允许可以在Excel里面新增加一列并赋予公式=Row()。但很多情况是源文件并不允许被轻易改动。那么,如何获得数据的行号,以方便今后漫长的岁月中,support同事们进行错误追踪呢?
环境:SQL SERVER 2008,SSIS 2008, Office 2003
解决思路:
因为Excel 2003中的数据最大只有65535行数据,因此在SSIS里面的new output里面加一列名为RowNo, 并增加一个自增变量, 每一次抽取一行数据的时候就将该字增变量赋给RowNo。 之前想到这个方式的时候我很担心SSIS并不是顺序读取Excel里面的每一行数据,也可能是随机读取Excel里面的数据直到读完。后来有同学说,反正只有65535行数据,测试一下先造一个65535行的数据样本,用Excel去抽取,看看是不是每一行都是顺序读取的,假如这65535都是顺序读取的。那测试就通过了。
解决方法:
在Data Flow里面加入Excel Source后面紧接着放一个Script控件,为该Script控件新建一个Output Column名为: SeqNo. 点击Edit Script进去后,设置一个全局私有变量:
private int _RowNumber = 2;
在Input0_ProcessInputRow(Input0Buffer Row)方法里面设置:
Row.DataLineNumber = _RowNumber;
Row.SeqNo = Variables.SeqNo;
_RowNumber++
结论:
SSIS在读取Excel数据的时候确实是顺序读取的,上面在Script中新建的SeqNo列值和测试的Excel数据样本里面的某一列被赋予=Row()的列值完全相同。