当前位置：首页 > news >正文

一个看似纠结的MySQL标签需求的梳理

news 来源：原创 2024/5/5 23:55:57

这是学习笔记的第 2145 篇文章

640?wx_fmt=gif

我们日常工作中总是会有一些看起来繁琐，吃力不讨好的事情，但是这些需求我们不能一概而论，为了落实规范而动用规范的大棒。

对我来说，我喜欢那种开放型的问题，比如看起来很繁琐无解，但是业务又迫切需要的事情。

比如业务同学今天提了一个问题：有一张表，数据量有600多万，而且数据实时的写入还挺多，记录的是一些工作的备注信息，比如客服同学接受了一个用户请求，然后会把这些信息记录下来，比如是关于哪个业务方向的，关于哪个游戏的等等，都当做一个字段信息存储起来。之前的管理是一种相对笼统的方式，在管理中会难以衡量和控制。所以现在想使用类似标签的方式进行信息归类。

举个例子来说，客服同学之前处理了几个需求，假设记录的格式是这样的：

用户xxx咨询游戏A的登录问题。。。。。

用户xxx反馈游戏B的充值问题，反馈游戏C（可能错别字）的经验没有生效。。。

用户xxx反馈手机号登录游戏B（可能缩写）失败，而且充值有问题。。。

所以用户反馈的信息是没有严格的格式和规范，要对这些用户请求打上标签难度还是比较大的。

对一张600多万的大表进行业务整改，势必会有一些全流程的改变，首先业务同学给我们出了个难题，这个表的索引是比较多的，重建的过程远远超出了我们的预期，还好使用了pt-osc工具还算稳。

现在表的一个标签字段已经创建好了，就需要进行下一步的工作：打标签。

业务同学进行梳理和讨论，整理了大概12个种类的关键字，每个关键字会对应一个数字编码，也就是能够被识别业务标签。

array(

1 => '关键字1',

2 => '关键字2',

3 => '关键字3',

4 => '关键字4',

5 => '关键字5',

6 => '关键字6',

7 => '关键字7',

8 => '关键字8',

9 => '关键字9',

10 => '关键字10',

11 => '关键字11',

12 => '关键字12'

);

面对这么多的种类，难点来了，有些标签是有互斥关系的，有些是可能存在关键字重合的，比如“笔记本电脑”“台式电脑”这两个词是互斥的两种类型，而“笔记本”和“笔记本电脑”又是互斥的。

如果让业务部门去统计这么多的重合标签，估计会疯掉，因为按照一个粗略的计算，比如6个标签，4个重合的概率就是16+5+1=22种，如果是12类标签，那方案复杂度要高得多，至少得上百种。

最关键的，哪怕这些都梳理出来，根据评估需要变更的数据有70万，怎么高效的把70万数据都发布到线上，这是一个值得思考的问题。整体的思路是：

1）线上的关键字模糊匹配工作要放到从库来执行。

2）从库端不光进行数据过滤，还需要进行一些数据的统计分析，进行去重和过滤

3）在经过需求确认后，把变更语句按照主键条件发布到线上

640?wx_fmt=png

对于标签的冲突关系梳理，我提出了改进的思路。

既然有12类标签，那么我们完全可以按照12个数据子集进行单独的关键字过滤，如果有一些标签是重合的，那么在12类标签过滤中势必会出现。

640?wx_fmt=png

面对这种多对多的映射，我们可以完全统计出这些多标签的比例来，如果占比不到0.1%,那么这些单据我们完全可以通过人工来判别，这样一来，99%以上的数据都可以自动完成，人工只需要进行判断很少的单据，避免我们的需求从开始就进入本末倒置的状态。

所以我按照单号（order_id,tag_name,tag_id）来进行数据抽取，很快就得到了12个数据子集，我们假设为dataset1-dataset12

然后我们把这些自己的数据写入一个共同的集合dataset中。

select order_id,count(*)from dataset group by order_id having count(*)>1就可以得到多标签的单据了。

而经过初步的统计，这个数据量级确实是很低的，5个重合标签的单据都是个位数，99%以上的单据都是单标签。

所以这一层关系确定之后，我们就可以考虑进行线上的数据部署优化了，而这也正是DBA要做的专业的事情。

如果变更语句有30万，那么我们构造出30万条SQL语句是成本比较高的。

我们可以把dataset的结果导入线上环境中，创建索引(order_id,tag_id)

然后分批次变更，尽可能避免半连接操作，根据实践的效果来看，每一步基本都控制在毫秒级完成。

近期热文：

相关文章：

技术学习中的三个有趣的数字

数据库修改密码风险高，如何保证业务持续，这几种密码双活方案可以参考

MySQL业务双活的初步设计方案

美女主持直播,被突发意外打断!湾区网友却高喊: 我懂!超甜

MySQL周期表管理太繁琐，通过Python自定义工具方法优雅解决

千万不要养大型犬，多么痛的领悟

《吊打面试官》系列-Redis基础

为什么我们的数据科学团队无法产生价值

在繁杂的业务需求中，如何找到API设计的平衡点

Greenplum的segment故障自愈小试

MySQL表添加了一个字段，竟然导致数据无法写入，反思

通过Maxwell解析MySQL Binlog，打好业务多活的基础

快到买买买的日子了，对于买书我提几点建议

深度解读：我为什么从来不过“双十一”

《黑客与画家》经典语录

JS中 map, filter, some, every, forEach, for in, for of 用法总结

【391天】每日项目总结系列128（2018.03.03）

【Amaple教程】5. 插件

AWS实战 - 利用IAM对S3做访问控制

ES6 ...操作符

k8s 面向应用开发者的基础命令

SQLServer之创建数据库快照

大整数乘法-表格法

两列自适应布局方案整理

深度学习在携程攻略社区的应用

试着探索高并发下的系统架构面貌

项目管理碎碎念系列之一：干系人管理

微龛半导体获数千万Pre-A轮融资，投资方为国中创投 ...

软考-高级-系统架构设计师教程（清华第2版）【第20章系统架构设计师论文写作要点（P717~728）-思维导图】

# .NET Framework中使用命名管道进行进程间通信

#HarmonyOS：基础语法

（6）【Python/机器学习/深度学习】Machine-Learning模型与算法应用—使用Adaboost建模及工作环境下的数据分析整理

（JS基础）String 类型

（LeetCode C++）盛最多水的容器

（安全基本功）磁盘MBR，分区表，活动分区，引导扇区。。。详解与区别

（附源码）springboot 智能停车场系统毕业设计065415

（附源码）springboot炼糖厂地磅全自动控制系统毕业设计 341357

(附源码)计算机毕业设计ssm-Java网名推荐系统

(附源码)计算机毕业设计SSM疫情居家隔离服务系统

(四)docker：为mysql和java jar运行环境创建同一网络，容器互联

（详细版）Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models

（一）ClickHouse 中的 `MaterializedMySQL` 数据库引擎的使用方法、设置、特性和限制。

（已解决）报错：Could not load the Qt platform plugin “xcb“

(原創) 如何優化ThinkPad X61開機速度? (NB) (ThinkPad) (X61) (OS) (Windows)

(转)Oracle 9i 数据库设计指引全集(1)

（转载）虚幻引擎3--【UnrealScript教程】章节一：20.location和rotation

..thread“main“ com.fasterxml.jackson.databind.JsonMappingException: Jackson version is too old 2.3.1

.MyFile@waifu.club.wis.mkp勒索病毒数据怎么处理|数据解密恢复

.net core开源商城系统源码，支持可视化布局小程序

.NET/C# 异常处理：写一个空的 try 块代码，而把重要代码写到 finally 中（Constrained Execution Regions）

.NET6使用MiniExcel根据数据源横向导出头部标题及数据

.NetCore实践篇：分布式监控Zipkin持久化之殇

.pyc文件是什么？

.vollhavhelp-V-XXXXXXXX勒索病毒的最新威胁：如何恢复您的数据？

@Autowired注解的实现原理