分类导航

大数据操作：删除和去重

发布时间：2017年06月19日作者： IT网络文摘 (该文来自笔记，点击查看原文)

一些看似简单的数据操作，当作用于海量数据集时，就会出现“意料之外，却在情理之中”的问题，海量数据操作，需要采用特殊方法，才能“曲径通幽”。在删除海量数据时，需要注意日志的增长，索引碎片的增加和数据库的恢复模式，特别是利用大容量日志操作，来减少日志的增长和提高数据插入的速度。对于大数据去重，通过一些小小的改进，比如创建索引，设置忽略重复值选项等，能够提高去重的效率。

一，从海量数据中删除数据

从海量数据表中删除一半数据，看似简单，使用delete命令，如果真这么干，SQL Server产生的事务日志暴增，估计会把服务器硬盘爆掉。数据库的恢复模式会影响日志文件的增长，在删除海量数据时，根据采用的方法，相应地把恢复模式设置为simple，或bulk_logged 模式，能够在很大程度上减少删除操作产生的事务日志，从而避免日志暴增。

另外，在删除数据时，把表上的多余索引删除（注意，是删除多余的索引），只保留一个必需的索引；在数据删除完成之后，再重建索引，能够提高数据删除操作的性能。有人做过实验，从存储1.6亿条记录的大表中删除数据，每删除400万条要消耗1.5 - 3小时，越到后面速度越慢，为什么？这是因为，每次删除数据时，数据库都要相应地更新索引，这是很慢的硬盘 IO操作，并且，越到后面，索引碎片越多，更新索引就越慢，这就是在删除400万条记录时，一开始只消耗1.5小时，后面要消耗3小时原因。

最后，根据保留数据占总数据量的比例，选择不同的方法删除数据。如果大表中保留的数据较少，可以先把保留的数据存储到临时表中，然后，把原始表删除，这样能够利用大容量日志操作，来减少日志的增长和提高数据插入的速度。

1，循环删除，避免日志文件暴增

在从海量数据表中删除大量数据时，为了避免日志文件暴增，通常采用循环删除方法：首先设置恢复模式为simple，然后每次删除操作都只删除部分数据，这样，当单个删除操作执行完成时，事务日志会被及时清理，事务日志一般保持单个删除操作的事务日志量。

循环删除的伪代码如下，该方法仍有一些局限性，耗时过长，并且会长期使数据库处于简单恢复模式下：

--ALTER DATABASE database_name SET RECOVERY SIMPLE ;  while @index<@EndIndexbegin
    delete table_name 
    where index<=@index;    set @index+=@Incrementend

2，将数据插入导其他表中，

延伸阅读

ssh框架 2016-09-30

阿里移动安全 [无线安全]玩转无线电——不安全的蓝牙锁 2017-07-26

消息队列NetMQ 原理分析4-Socket、Session、Option和Pipe 2024-03-26

Selective Search for Object Recognition 论文笔记【图片目标分割】 2017-07-26

词向量-LRWE模型-更好地识别反义词同义词 2017-07-26

从栈不平衡问题理解 calling convention 2017-07-26

php imagemagick 处理图片剪切、压缩、合并、插入文本、背景色透明 2017-07-26

Swift实现JSON转Model - HandyJSON使用讲解 2017-07-26

阿里移动安全 Android端恶意锁屏勒索应用分析 2017-07-26

集合结合数据结构来看看(二) 2017-07-26

学习是年轻人改变自己的最好方式

我想了解如何学习

姓名：

手机：

留言：

17年我们追求卓越 24项主流技术引领先锋 1000课时打造职场干将 50000行代码练就非凡本领

关于万码学堂

校园环境

联系我们

网站地图

关于学习

课程体系

关于万码

课程体系

报名方法

申请试听

在线报名

常见问题

大家关注

在线提问

学习方面

关注我们

新浪微博

联系我们

联系微信

0532-85025005

马上咨询，周一至周日8:00-18:00

在线客服

万码学员实训作品

IT企业招聘信息

在万码学堂奋斗的岁月

编程知识分享

你想了解的万码学堂

青岛软件培训课程

IT行业动态

职场人生

学习编程的感想

万码学员风采

万码学堂技术专家

栏目导航：如何学习软件关于万码学堂关注点

旗下网站：青岛IT培训网程序猿编程派青岛电脑学校青岛Android培训青岛软件培训云培训万码学堂官网青岛大学生IT培训

青岛青软职业培训学校万码学堂（办学许可证编号：人社民3702023080012号）鲁ICP备09077726号 qingruanit.net

青岛市市南区南京路122号B1栋3层咨询电话0532-85025005