批量数据导入的性能与完整性问题

刚才有网友问了一个技术问题：

我从其他接口采集一批数据，每次上万条左右，然后存到数据库，存库前还要每条每条的判断数据库存不存在这条数据，不存在才能写库，有没有性能好的实现思路啊？

这是典型的批量数据导入的问题，一般追求是速度。

8年前来澳洲后第一份工作是一个做智能表（水电煤等）的公司，软硬件结合，软件系统采集数十万的智能表的数据，系统里一些表，单个超过30亿条记录，每天更新上千万条记录，为了这个专门实现了一个高度优化的批量导入功能。

现在拿微软SQL Server做例子，说说思路。

首先，要实现速度，会考虑批量导入（Bulk Copy），但一般来源数据格式和目标表达格式不一样（譬如字段数量、类型等），甚至需要做一些计算，甚至要从关联表取数据，所以一般先会导入到临时表，然后再插入目标表。

使用Bulk Copy有一个问题，是它不确保插入数据的顺序，所以如果你必须要求数据插入完全按照来源数据的要求，你必须确保Bulk Copy之前主键字段的值是按顺序的，因为簇集索引是物理顺序，所以会默认按这个排序。

插入目标表需要考虑2个问题：

插入数据要确保唯一性又要考虑最新数据会被导入，一般做法是判断目标表是否存在数据，如果不存在则插入，如果存在则更新，这个操作是有重复处理浪费时间，所以可以用SQL Server的MERGE语句，把插入和更新合二为一。

有朋友问：“那是否有更快的办法？”。是有的，那就是支持多线程/多进程。思路如下：

这样做可以支持并发问题，提高性能。

爆栈网 – 开发人员的爆栈之旅