Schema与数据类型优化
更小的通常更好
简单就好
尽量避免NULL
整数类型
实数类型
字符串类型
BLOB和TEXT类型
使用枚举(ENUM )代替字符串类型
DATETIME和TIMESTAMP
选择标识符(identifier)
MySQL schema设计中的陷阱
太多的列
太多的关联
全能的枚举
CREATE TABLE ... ( country enum('','0','1','2',...,'31')
变相的枚举
CREATE TABLE ... ( is_default set ('Y','N') NOT NULL default 'N'
枚举(ENUM)列允许在列中存储一组定义值中的单个值,集合(SET)列则允许在列中存储一组定义值中的一个或多个值。有时候这可能比较容易导致混乱。
非此发明(Not Invent Here)的NULL
范式和反范式
范式的优点和缺点
当为性能问题而寻求帮助时,经常会被建议对schema进行范式化设计,尤其是写密集的场景。这通常是个好建议。因为下面这些原因,范式化通常能够带来好处:
范式化的更新操作通常比反范式化要快。
当数据较好地范式化时,就只有很少或者没有重复数据,所以只需要修改更少的数据。
范式化的表通常更小,可以更好地放在内存里,所以执行操作会更快。
很少有多余的数据意味着检索列表数据时更少需要DISTINCT或者GROUP BY语句。
范式化设计的schema的缺点是通常需要关联。稍微复杂一些的查询语句在符合范式的schema上都可能需要至少一次关联,也许更多。这不但代价昂贵,也可能使一些索引策略无效。例如,范式化可能将列存放在不同的表中,而这些列如果在一个表中本可以属于同一个索引。
反范式的优点和缺点
反范式化的schema因为所有数据都在一张表中,可以很好地避免关联。 如果不需要关联表,则对大部分查询最差的情况——即使表没有使用索引——是全表扫描。当数据比内存大时这可能比关联要快得多,因为这样避免了随机 I/O 。
单独的表也能使用更有效的索引策略。
混用范式化和反范式化
事实是,完全的范式化和完全的反范式化schema都是实验室里才有的东西:在真实世界中很少会这么极端地使用。在实际应用中经常需要混用,可能使用部分范式化的schema、缓存表,以及其他技巧。