06-ClickHouse集群部署与管理 - 在线学习与练习平台

概述

ClickHouse集群部署是构建高可用、高性能数据分析系统的关键。本章将详细介绍ClickHouse集群的架构设计、部署方案、配置管理和运维实践，帮助你构建稳定可靠的ClickHouse集群。

集群架构设计

集群拓扑结构

ClickHouse支持多种集群拓扑，需要根据业务需求选择合适的架构。

from enum import Enum
from dataclasses import dataclass
from typing import Dict, List, Any, Optional
import time
import random
import json

class ClusterTopology(Enum):
    """集群拓扑类型"""
    SINGLE_SHARD = "single_shard"
    MULTI_SHARD = "multi_shard"
    REPLICATED = "replicated"
    SHARDED_REPLICATED = "sharded_replicated"
    DISTRIBUTED = "distributed"

class NodeRole(Enum):
    """节点角色"""
    SHARD_MASTER = "shard_master"
    SHARD_REPLICA = "shard_replica"
    COORDINATOR = "coordinator"
    PROXY = "proxy"
    ZOOKEEPER = "zookeeper"

class NodeStatus(Enum):
    """节点状态"""
    HEALTHY = "healthy"
    DEGRADED = "degraded"
    FAILED = "failed"
    MAINTENANCE = "maintenance"
    UNKNOWN = "unknown"

@dataclass
class ClusterNode:
    """集群节点"""
    node_id: str
    hostname: str
    ip_address: str
    port: int
    role: NodeRole
    shard_id: Optional[str]
    replica_id: Optional[str]
    status: NodeStatus
    cpu_cores: int
    memory_gb: int
    disk_gb: int
    version: str
    last_heartbeat: float

@dataclass
class ShardInfo:
    """分片信息"""
    shard_id: str
    shard_weight: int
    master_node: ClusterNode
    replica_nodes: List[ClusterNode]
    data_size_gb: float
    query_load: float
    is_healthy: bool

@dataclass
class ClusterConfiguration:
    """集群配置"""
    cluster_name: str
    topology: ClusterTopology
    total_nodes: int
    shard_count: int
    replica_count: int
    zookeeper_nodes: List[str]
    load_balancer_config: Dict[str, Any]
    security_config: Dict[str, Any]
    backup_config: Dict[str, Any]

class ClickHouseClusterManager:
    """ClickHouse集群管理器"""
    
    def __init__(self):
        self.topology_templates = self._initialize_topology_templates()
        self.deployment_strategies = self._initialize_deployment_strategies()
        self.monitoring_metrics = self._initialize_monitoring_metrics()
    
    def _initialize_topology_templates(self) -> Dict[ClusterTopology, Dict[str, Any]]:
        """初始化拓扑模板"""
        return {
            ClusterTopology.SINGLE_SHARD: {
                "description": "单分片集群，适用于小规模数据",
                "min_nodes": 1,
                "max_nodes": 10,
                "recommended_nodes": 3,
                "use_cases": ["开发测试", "小规模分析", "原型验证"],
                "advantages": ["简单部署", "低维护成本", "快速启动"],
                "limitations": ["扩展性有限", "单点故障风险", "性能瓶颈"]
            },
            ClusterTopology.MULTI_SHARD: {
                "description": "多分片集群，水平扩展数据处理能力",
                "min_nodes": 2,
                "max_nodes": 100,
                "recommended_nodes": 6,
                "use_cases": ["大数据分析", "高并发查询", "数据仓库"],
                "advantages": ["水平扩展", "并行处理", "高性能"],
                "limitations": ["复杂部署", "数据分布管理", "跨分片查询开销"]
            },
            ClusterTopology.REPLICATED: {
                "description": "副本集群，提供高可用性",
                "min_nodes": 2,
                "max_nodes": 20,
                "recommended_nodes": 4,
                "use_cases": ["高可用系统", "读写分离", "灾难恢复"],
                "advantages": ["高可用性", "读扩展", "数据冗余"],
                "limitations": ["存储成本增加", "写入延迟", "一致性管理"]
            },
            ClusterTopology.SHARDED_REPLICATED: {
                "description": "分片+副本集群，兼顾性能和可用性",
                "min_nodes": 4,
                "max_nodes": 200,
                "recommended_nodes": 12,
                "use_cases": ["企业级数据仓库", "大规模OLAP", "关键业务系统"],
                "advantages": ["高性能", "高可用", "水平扩展", "容错能力"],
                "limitations": ["复杂架构", "高维护成本", "网络开销"]
            },
            ClusterTopology.DISTRIBUTED: {
                "description": "分布式集群，跨数据中心部署",
                "min_nodes": 6,
                "max_nodes": 500,
                "recommended_nodes": 18,
                "use_cases": ["多地域部署", "全球化服务", "超大规模系统"],
                "advantages": ["地理分布", "灾难恢复", "就近访问", "超大规模"],
                "limitations": ["网络延迟", "复杂运维", "数据一致性挑战"]
            }
        }
    
    def _initialize_deployment_strategies(self) -> Dict[str, Dict[str, Any]]:
        """初始化部署策略"""
        return {
            "bare_metal": {
                "description": "物理机部署",
                "advantages": ["最高性能", "资源独占", "可定制硬件"],
                "disadvantages": ["高成本", "部署复杂", "扩展困难"],
                "suitable_scenarios": ["高性能要求", "大规模部署", "长期稳定运行"]
            },
            "virtual_machine": {
                "description": "虚拟机部署",
                "advantages": ["资源隔离", "快速部署", "成本适中"],
                "disadvantages": ["性能损耗", "资源竞争", "管理复杂"],
                "suitable_scenarios": ["中等规模", "混合环境", "传统IT架构"]
            },
            "container": {
                "description": "容器化部署",
                "advantages": ["轻量级", "快速启动", "易于管理", "资源高效"],
                "disadvantages": ["存储挑战", "网络复杂", "状态管理"],
                "suitable_scenarios": ["云原生", "微服务", "开发测试"]
            },
            "kubernetes": {
                "description": "Kubernetes编排部署",
                "advantages": ["自动化运维", "弹性扩展", "服务发现", "故障恢复"],
                "disadvantages": ["学习成本", "复杂配置", "资源开销"],
                "suitable_scenarios": ["云原生应用", "自动化运维", "大规模集群"]
            },
            "cloud_managed": {
                "description": "云托管服务",
                "advantages": ["免运维", "弹性计费", "高可用", "安全保障"],
                "disadvantages": ["厂商锁定", "成本较高", "定制限制"],
                "suitable_scenarios": ["快速上线", "中小企业", "非核心业务"]
            }
        }
    
    def _initialize_monitoring_metrics(self) -> Dict[str, Dict[str, Any]]:
        """初始化监控指标"""
        return {
            "cluster_health": {
                "metrics": ["node_availability", "shard_status", "replica_lag", "cluster_connectivity"],
                "thresholds": {"critical": 0.9, "warning": 0.95},
                "check_interval_seconds": 30
            },
            "performance": {
                "metrics": ["query_throughput", "query_latency", "cpu_usage", "memory_usage", "disk_io"],
                "thresholds": {"critical": 0.9, "warning": 0.8},
                "check_interval_seconds": 60
            },
            "data_integrity": {
                "metrics": ["data_consistency", "replication_status", "backup_status", "corruption_check"],
                "thresholds": {"critical": 0.99, "warning": 0.999},
                "check_interval_seconds": 300
            },
            "resource_usage": {
                "metrics": ["storage_usage", "network_bandwidth", "connection_count", "queue_length"],
                "thresholds": {"critical": 0.9, "warning": 0.8},
                "check_interval_seconds": 120
            }
        }
    
    def design_cluster_topology(self, requirements: Dict[str, Any]) -> ClusterConfiguration:
        """设计集群拓扑"""
        # 分析需求
        data_size_tb = requirements.get("data_size_tb", 1)
        query_qps = requirements.get("query_qps", 100)
        availability_requirement = requirements.get("availability_sla", 0.99)
        budget_level = requirements.get("budget_level", "medium")  # low, medium, high
        
        # 选择拓扑类型
        if data_size_tb < 1 and query_qps < 50:
            topology = ClusterTopology.SINGLE_SHARD
            shard_count = 1
            replica_count = 1 if availability_requirement < 0.95 else 2
        elif data_size_tb < 10 and availability_requirement >= 0.99:
            topology = ClusterTopology.REPLICATED
            shard_count = 1
            replica_count = 3 if availability_requirement >= 0.999 else 2
        elif data_size_tb >= 10 or query_qps >= 500:
            if availability_requirement >= 0.99:
                topology = ClusterTopology.SHARDED_REPLICATED
                shard_count = max(2, int(data_size_tb / 5))  # 每分片约5TB
                replica_count = 3 if availability_requirement >= 0.999 else 2
            else:
                topology = ClusterTopology.MULTI_SHARD
                shard_count = max(2, int(data_size_tb / 10))  # 每分片约10TB
                replica_count = 1
        else:
            topology = ClusterTopology.MULTI_SHARD
            shard_count = 2
            replica_count = 1
        
        # 计算节点数量
        total_nodes = shard_count * replica_count
        
        # ZooKeeper节点配置
        zk_nodes = []
        if replica_count > 1:
            zk_count = 3 if total_nodes <= 10 else 5
            zk_nodes = [f"zk-{i+1}.cluster.local:2181" for i in range(zk_count)]
        
        # 负载均衡配置
        lb_config = {
            "strategy": "round_robin" if query_qps < 1000 else "least_connections",
            "health_check_interval": 30,
            "max_connections_per_node": 1000,
            "connection_timeout": 5000
        }
        
        # 安全配置
        security_config = {
            "enable_ssl": availability_requirement >= 0.99,
            "enable_authentication": True,
            "enable_authorization": availability_requirement >= 0.99,
            "password_complexity": "medium" if budget_level != "low" else "basic"
        }
        
        # 备份配置
        backup_config = {
            "enable_backup": availability_requirement >= 0.95,
            "backup_frequency_hours": 24 if availability_requirement < 0.99 else 12,
            "retention_days": 7 if budget_level == "low" else 30,
            "backup_compression": True
        }
        
        return ClusterConfiguration(
            cluster_name=f"clickhouse-{topology.value}",
            topology=topology,
            total_nodes=total_nodes,
            shard_count=shard_count,
            replica_count=replica_count,
            zookeeper_nodes=zk_nodes,
            load_balancer_config=lb_config,
            security_config=security_config,
            backup_config=backup_config
        )
    
    def generate_cluster_nodes(self, config: ClusterConfiguration) -> List[ClusterNode]:
        """生成集群节点配置"""
        nodes = []
        node_counter = 1
        
        # 生成分片节点
        for shard_id in range(1, config.shard_count + 1):
            for replica_id in range(1, config.replica_count + 1):
                role = NodeRole.SHARD_MASTER if replica_id == 1 else NodeRole.SHARD_REPLICA
                
                node = ClusterNode(
                    node_id=f"node-{node_counter:03d}",
                    hostname=f"ch-s{shard_id}r{replica_id}.cluster.local",
                    ip_address=f"10.0.{shard_id}.{replica_id + 10}",
                    port=9000,
                    role=role,
                    shard_id=f"shard-{shard_id}",
                    replica_id=f"replica-{replica_id}",
                    status=NodeStatus.HEALTHY,
                    cpu_cores=16 if config.topology in [ClusterTopology.SHARDED_REPLICATED, ClusterTopology.DISTRIBUTED] else 8,
                    memory_gb=64 if config.topology in [ClusterTopology.SHARDED_REPLICATED, ClusterTopology.DISTRIBUTED] else 32,
                    disk_gb=2000 if config.topology in [ClusterTopology.SHARDED_REPLICATED, ClusterTopology.DISTRIBUTED] else 1000,
                    version="23.8.1",
                    last_heartbeat=time.time()
                )
                
                nodes.append(node)
                node_counter += 1
        
        # 生成ZooKeeper节点（如果需要）
        if config.zookeeper_nodes:
            for i, zk_addr in enumerate(config.zookeeper_nodes, 1):
                hostname = zk_addr.split(':')[0]
                node = ClusterNode(
                    node_id=f"zk-{i:03d}",
                    hostname=hostname,
                    ip_address=f"10.0.0.{i + 100}",
                    port=2181,
                    role=NodeRole.ZOOKEEPER,
                    shard_id=None,
                    replica_id=None,
                    status=NodeStatus.HEALTHY,
                    cpu_cores=4,
                    memory_gb=8,
                    disk_gb=100,
                    version="3.8.0",
                    last_heartbeat=time.time()
                )
                
                nodes.append(node)
        
        return nodes
    
    def generate_deployment_config(self, config: ClusterConfiguration, 
                                 nodes: List[ClusterNode],
                                 deployment_type: str = "kubernetes") -> Dict[str, Any]:
        """生成部署配置"""
        if deployment_type == "kubernetes":
            return self._generate_k8s_config(config, nodes)
        elif deployment_type == "docker_compose":
            return self._generate_docker_compose_config(config, nodes)
        elif deployment_type == "ansible":
            return self._generate_ansible_config(config, nodes)
        else:
            return self._generate_manual_config(config, nodes)
    
    def _generate_k8s_config(self, config: ClusterConfiguration, 
                           nodes: List[ClusterNode]) -> Dict[str, Any]:
        """生成Kubernetes配置"""
        k8s_config = {
            "apiVersion": "v1",
            "kind": "ConfigMap",
            "metadata": {
                "name": f"{config.cluster_name}-config",
                "namespace": "clickhouse"
            },
            "data": {
                "cluster.xml": self._generate_cluster_xml(config, nodes),
                "users.xml": self._generate_users_xml(config),
                "config.xml": self._generate_server_config_xml(config)
            }
        }
        
        # StatefulSet配置
        statefulset_config = {
            "apiVersion": "apps/v1",
            "kind": "StatefulSet",
            "metadata": {
                "name": config.cluster_name,
                "namespace": "clickhouse"
            },
            "spec": {
                "serviceName": f"{config.cluster_name}-headless",
                "replicas": config.total_nodes,
                "selector": {
                    "matchLabels": {
                        "app": config.cluster_name
                    }
                },
                "template": {
                    "metadata": {
                        "labels": {
                            "app": config.cluster_name
                        }
                    },
                    "spec": {
                        "containers": [{
                            "name": "clickhouse",
                            "image": "clickhouse/clickhouse-server:23.8",
                            "ports": [
                                {"containerPort": 9000, "name": "native"},
                                {"containerPort": 8123, "name": "http"}
                            ],
                            "resources": {
                                "requests": {
                                    "cpu": "2",
                                    "memory": "8Gi"
                                },
                                "limits": {
                                    "cpu": "8",
                                    "memory": "32Gi"
                                }
                            },
                            "volumeMounts": [
                                {
                                    "name": "config",
                                    "mountPath": "/etc/clickhouse-server/config.d"
                                },
                                {
                                    "name": "data",
                                    "mountPath": "/var/lib/clickhouse"
                                }
                            ]
                        }],
                        "volumes": [{
                            "name": "config",
                            "configMap": {
                                "name": f"{config.cluster_name}-config"
                            }
                        }]
                    }
                },
                "volumeClaimTemplates": [{
                    "metadata": {
                        "name": "data"
                    },
                    "spec": {
                        "accessModes": ["ReadWriteOnce"],
                        "resources": {
                            "requests": {
                                "storage": "1Ti"
                            }
                        }
                    }
                }]
            }
        }
        
        return {
            "configmap": k8s_config,
            "statefulset": statefulset_config,
            "deployment_type": "kubernetes"
        }
    
    def _generate_cluster_xml(self, config: ClusterConfiguration, 
                            nodes: List[ClusterNode]) -> str:
        """生成集群配置XML"""
        cluster_xml = f"""<clickhouse>
    <remote_servers>
        <{config.cluster_name}>
"""
        
        # 按分片组织节点
        shards = {}
        for node in nodes:
            if node.role in [NodeRole.SHARD_MASTER, NodeRole.SHARD_REPLICA] and node.shard_id:
                if node.shard_id not in shards:
                    shards[node.shard_id] = []
                shards[node.shard_id].append(node)
        
        # 生成分片配置
        for shard_id, shard_nodes in shards.items():
            cluster_xml += f"            <shard>\n"
            cluster_xml += f"                <weight>1</weight>\n"
            
            if len(shard_nodes) > 1:
                cluster_xml += f"                <internal_replication>true</internal_replication>\n"
                for node in shard_nodes:
                    cluster_xml += f"                <replica>\n"
                    cluster_xml += f"                    <host>{node.hostname}</host>\n"
                    cluster_xml += f"                    <port>{node.port}</port>\n"
                    cluster_xml += f"                </replica>\n"
            else:
                node = shard_nodes[0]
                cluster_xml += f"                <host>{node.hostname}</host>\n"
                cluster_xml += f"                <port>{node.port}</port>\n"
            
            cluster_xml += f"            </shard>\n"
        
        cluster_xml += f"        </{config.cluster_name}>\n"
        cluster_xml += "    </remote_servers>\n"
        
        # ZooKeeper配置
        if config.zookeeper_nodes:
            cluster_xml += "    <zookeeper>\n"
            for i, zk_node in enumerate(config.zookeeper_nodes, 1):
                host, port = zk_node.split(':')
                cluster_xml += f"        <node index=\"{i}\">\n"
                cluster_xml += f"            <host>{host}</host>\n"
                cluster_xml += f"            <port>{port}</port>\n"
                cluster_xml += f"        </node>\n"
            cluster_xml += "    </zookeeper>\n"
        
        cluster_xml += "</clickhouse>"
        
        return cluster_xml
    
    def _generate_users_xml(self, config: ClusterConfiguration) -> str:
        """生成用户配置XML"""
        return """<clickhouse>
    <users>
        <default>
            <password></password>
            <networks>
                <ip>::/0</ip>
            </networks>
            <profile>default</profile>
            <quota>default</quota>
        </default>
        
        <admin>
            <password_sha256_hex>e3b0c44298fc1c149afbf4c8996fb92427ae41e4649b934ca495991b7852b855</password_sha256_hex>
            <networks>
                <ip>::/0</ip>
            </networks>
            <profile>default</profile>
            <quota>default</quota>
            <access_management>1</access_management>
        </admin>
    </users>
    
    <profiles>
        <default>
            <max_memory_usage>10000000000</max_memory_usage>
            <use_uncompressed_cache>0</use_uncompressed_cache>
            <load_balancing>random</load_balancing>
        </default>
    </profiles>
    
    <quotas>
        <default>
            <interval>
                <duration>3600</duration>
                <queries>0</queries>
                <errors>0</errors>
                <result_rows>0</result_rows>
                <read_rows>0</read_rows>
                <execution_time>0</execution_time>
            </interval>
        </default>
    </quotas>
</clickhouse>"""
    
    def _generate_server_config_xml(self, config: ClusterConfiguration) -> str:
        """生成服务器配置XML"""
        return f"""<clickhouse>
    <logger>
        <level>information</level>
        <log>/var/log/clickhouse-server/clickhouse-server.log</log>
        <errorlog>/var/log/clickhouse-server/clickhouse-server.err.log</errorlog>
        <size>1000M</size>
        <count>10</count>
    </logger>
    
    <http_port>8123</http_port>
    <tcp_port>9000</tcp_port>
    <mysql_port>9004</mysql_port>
    <postgresql_port>9005</postgresql_port>
    
    <listen_host>::</listen_host>
    
    <max_connections>4096</max_connections>
    <keep_alive_timeout>3</keep_alive_timeout>
    <max_concurrent_queries>100</max_concurrent_queries>
    <uncompressed_cache_size>8589934592</uncompressed_cache_size>
    <mark_cache_size>5368709120</mark_cache_size>
    
    <path>/var/lib/clickhouse/</path>
    <tmp_path>/var/lib/clickhouse/tmp/</tmp_path>
    <user_files_path>/var/lib/clickhouse/user_files/</user_files_path>
    <format_schema_path>/var/lib/clickhouse/format_schemas/</format_schema_path>
    
    <users_config>users.xml</users_config>
    
    <default_profile>default</default_profile>
    <default_database>default</default_database>
    
    <timezone>UTC</timezone>
    
    <mlock_executable>false</mlock_executable>
    
    <remote_servers_config>cluster.xml</remote_servers_config>
    
    <builtin_dictionaries_reload_interval>3600</builtin_dictionaries_reload_interval>
    
    <max_session_timeout>3600</max_session_timeout>
    <default_session_timeout>60</default_session_timeout>
    
    <query_log>
        <database>system</database>
        <table>query_log</table>
        <flush_interval_milliseconds>7500</flush_interval_milliseconds>
    </query_log>
    
    <trace_log>
        <database>system</database>
        <table>trace_log</table>
        <flush_interval_milliseconds>7500</flush_interval_milliseconds>
    </trace_log>
    
    <query_thread_log>
        <database>system</database>
        <table>query_thread_log</table>
        <flush_interval_milliseconds>7500</flush_interval_milliseconds>
    </query_thread_log>
</clickhouse>"""
    
    def _generate_docker_compose_config(self, config: ClusterConfiguration, 
                                      nodes: List[ClusterNode]) -> Dict[str, Any]:
        """生成Docker Compose配置"""
        services = {}
        
        # ClickHouse节点
        for node in nodes:
            if node.role in [NodeRole.SHARD_MASTER, NodeRole.SHARD_REPLICA]:
                services[node.node_id] = {
                    "image": "clickhouse/clickhouse-server:23.8",
                    "hostname": node.hostname,
                    "ports": [
                        f"{8123 + int(node.node_id.split('-')[1])}:8123",
                        f"{9000 + int(node.node_id.split('-')[1])}:9000"
                    ],
                    "volumes": [
                        f"./config/{node.node_id}:/etc/clickhouse-server/config.d",
                        f"./data/{node.node_id}:/var/lib/clickhouse",
                        f"./logs/{node.node_id}:/var/log/clickhouse-server"
                    ],
                    "environment": {
                        "CLICKHOUSE_DB": "default",
                        "CLICKHOUSE_USER": "default",
                        "CLICKHOUSE_PASSWORD": ""
                    },
                    "depends_on": []
                }
        
        # ZooKeeper节点
        if config.zookeeper_nodes:
            for i, zk_addr in enumerate(config.zookeeper_nodes, 1):
                zk_id = f"zookeeper-{i}"
                services[zk_id] = {
                    "image": "zookeeper:3.8",
                    "hostname": zk_addr.split(':')[0],
                    "ports": [f"{2181 + i - 1}:2181"],
                    "environment": {
                        "ZOO_MY_ID": str(i),
                        "ZOO_SERVERS": " ".join([
                            f"server.{j+1}={addr.split(':')[0]}:2888:3888;2181"
                            for j, addr in enumerate(config.zookeeper_nodes)
                        ])
                    },
                    "volumes": [
                        f"./zk-data/{zk_id}:/data",
                        f"./zk-logs/{zk_id}:/datalog"
                    ]
                }
                
                # ClickHouse节点依赖ZooKeeper
                for node_id in services:
                    if node_id.startswith("node-"):
                        services[node_id]["depends_on"].append(zk_id)
        
        return {
            "version": "3.8",
            "services": services,
            "networks": {
                "clickhouse-network": {
                    "driver": "bridge"
                }
            },
            "volumes": {
                f"{config.cluster_name}-data": {},
                f"{config.cluster_name}-logs": {}
            }
        }
    
    def _generate_ansible_config(self, config: ClusterConfiguration, 
                               nodes: List[ClusterNode]) -> Dict[str, Any]:
        """生成Ansible配置"""
        inventory = {
            "all": {
                "children": {
                    "clickhouse": {
                        "children": {}
                    }
                }
            }
        }
        
        # 按分片组织主机
        shards = {}
        for node in nodes:
            if node.role in [NodeRole.SHARD_MASTER, NodeRole.SHARD_REPLICA] and node.shard_id:
                if node.shard_id not in shards:
                    shards[node.shard_id] = []
                shards[node.shard_id].append(node)
        
        for shard_id, shard_nodes in shards.items():
            shard_group = f"shard_{shard_id.split('-')[1]}"
            inventory["all"]["children"]["clickhouse"]["children"][shard_group] = {
                "hosts": {}
            }
            
            for node in shard_nodes:
                inventory["all"]["children"]["clickhouse"]["children"][shard_group]["hosts"][node.hostname] = {
                    "ansible_host": node.ip_address,
                    "ansible_port": 22,
                    "clickhouse_shard": node.shard_id,
                    "clickhouse_replica": node.replica_id,
                    "clickhouse_role": node.role.value
                }
        
        # ZooKeeper主机组
        if config.zookeeper_nodes:
            inventory["all"]["children"]["zookeeper"] = {
                "hosts": {}
            }
            
            for i, zk_addr in enumerate(config.zookeeper_nodes, 1):
                hostname = zk_addr.split(':')[0]
                inventory["all"]["children"]["zookeeper"]["hosts"][hostname] = {
                    "ansible_host": f"10.0.0.{i + 100}",
                    "ansible_port": 22,
                    "zookeeper_id": i
                }
        
        # Playbook配置
        playbook = {
            "name": f"Deploy {config.cluster_name}",
            "hosts": "all",
            "become": True,
            "vars": {
                "clickhouse_version": "23.8.1",
                "cluster_name": config.cluster_name,
                "zookeeper_nodes": config.zookeeper_nodes
            },
            "tasks": [
                {
                    "name": "Install ClickHouse",
                    "package": {
                        "name": "clickhouse-server",
                        "state": "present"
                    },
                    "when": "inventory_hostname in groups['clickhouse']"
                },
                {
                    "name": "Configure ClickHouse",
                    "template": {
                        "src": "config.xml.j2",
                        "dest": "/etc/clickhouse-server/config.xml"
                    },
                    "when": "inventory_hostname in groups['clickhouse']"
                },
                {
                    "name": "Start ClickHouse service",
                    "service": {
                        "name": "clickhouse-server",
                        "state": "started",
                        "enabled": True
                    },
                    "when": "inventory_hostname in groups['clickhouse']"
                }
            ]
        }
        
        return {
            "inventory": inventory,
            "playbook": playbook,
            "deployment_type": "ansible"
        }
    
    def _generate_manual_config(self, config: ClusterConfiguration, 
                              nodes: List[ClusterNode]) -> Dict[str, Any]:
        """生成手动部署配置"""
        installation_steps = [
            "1. 准备服务器环境",
            "   - 安装操作系统（推荐Ubuntu 20.04 LTS或CentOS 8）",
            "   - 配置网络和主机名",
            "   - 安装必要的依赖包",
            "",
            "2. 安装ClickHouse",
            "   - 添加ClickHouse官方仓库",
            "   - 安装clickhouse-server和clickhouse-client",
            "   - 配置系统服务",
            "",
            "3. 配置集群",
            "   - 复制配置文件到各节点",
            "   - 修改节点特定配置",
            "   - 配置ZooKeeper（如果需要）",
            "",
            "4. 启动服务",
            "   - 启动ZooKeeper服务",
            "   - 启动ClickHouse服务",
            "   - 验证集群状态",
            "",
            "5. 创建分布式表",
            "   - 在各分片创建本地表",
            "   - 创建分布式表",
            "   - 测试数据插入和查询"
        ]
        
        configuration_files = {
            "config.xml": self._generate_server_config_xml(config),
            "users.xml": self._generate_users_xml(config),
            "cluster.xml": self._generate_cluster_xml(config, nodes)
        }
        
        verification_commands = [
            "# 检查服务状态",
            "sudo systemctl status clickhouse-server",
            "",
            "# 检查集群连接",
            "clickhouse-client --query \"SELECT * FROM system.clusters\"",
            "",
            "# 检查分片状态",
            "clickhouse-client --query \"SELECT shard_num, replica_num, host_name FROM system.clusters WHERE cluster = '{}'\"".
            format(config.cluster_name),
            "",
            "# 测试分布式查询",
            "clickhouse-client --query \"SELECT count() FROM cluster('{}', system.numbers) LIMIT 10\"".
            format(config.cluster_name)
        ]
        
        return {
            "installation_steps": installation_steps,
            "configuration_files": configuration_files,
            "verification_commands": verification_commands,
            "deployment_type": "manual"
        }
    
    def estimate_deployment_resources(self, config: ClusterConfiguration, 
                                    nodes: List[ClusterNode]) -> Dict[str, Any]:
        """估算部署资源需求"""
        # 计算总资源需求
        total_cpu_cores = sum(node.cpu_cores for node in nodes if node.role != NodeRole.ZOOKEEPER)
        total_memory_gb = sum(node.memory_gb for node in nodes if node.role != NodeRole.ZOOKEEPER)
        total_disk_gb = sum(node.disk_gb for node in nodes if node.role != NodeRole.ZOOKEEPER)
        
        # ZooKeeper资源
        zk_nodes = [node for node in nodes if node.role == NodeRole.ZOOKEEPER]
        zk_cpu_cores = sum(node.cpu_cores for node in zk_nodes)
        zk_memory_gb = sum(node.memory_gb for node in zk_nodes)
        zk_disk_gb = sum(node.disk_gb for node in zk_nodes)
        
        # 网络带宽估算
        estimated_network_gbps = max(1, config.total_nodes * 0.5)  # 每节点0.5Gbps
        
        # 成本估算（基于云服务器价格）
        monthly_cost_usd = {
            "compute": total_cpu_cores * 50 + total_memory_gb * 5,  # CPU和内存成本
            "storage": total_disk_gb * 0.1,  # 存储成本
            "network": estimated_network_gbps * 100,  # 网络成本
            "zookeeper": len(zk_nodes) * 100,  # ZooKeeper成本
            "management": config.total_nodes * 20  # 管理成本
        }
        
        total_monthly_cost = sum(monthly_cost_usd.values())
        
        return {
            "clickhouse_nodes": {
                "count": config.total_nodes,
                "total_cpu_cores": total_cpu_cores,
                "total_memory_gb": total_memory_gb,
                "total_disk_gb": total_disk_gb
            },
            "zookeeper_nodes": {
                "count": len(zk_nodes),
                "total_cpu_cores": zk_cpu_cores,
                "total_memory_gb": zk_memory_gb,
                "total_disk_gb": zk_disk_gb
            },
            "network": {
                "estimated_bandwidth_gbps": estimated_network_gbps,
                "recommended_latency_ms": 1
            },
            "cost_estimation_usd": {
                "monthly_breakdown": monthly_cost_usd,
                "total_monthly": total_monthly_cost,
                "annual": total_monthly_cost * 12
            },
            "deployment_time": {
                "manual_hours": config.total_nodes * 2,
                "automated_hours": max(2, config.total_nodes * 0.5),
                "testing_hours": max(4, config.total_nodes * 0.5)
            }
        }

# 集群设计示例
print("\n\n=== ClickHouse集群设计分析 ===")

cluster_manager = ClickHouseClusterManager()

print("\n1. 集群拓扑设计:")
# 不同规模的需求场景
test_requirements = [
    {
        "name": "小型开发环境",
        "data_size_tb": 0.5,
        "query_qps": 20,
        "availability_sla": 0.95,
        "budget_level": "low"
    },
    {
        "name": "中型生产环境",
        "data_size_tb": 5,
        "query_qps": 200,
        "availability_sla": 0.99,
        "budget_level": "medium"
    },
    {
        "name": "大型企业环境",
        "data_size_tb": 50,
        "query_qps": 1000,
        "availability_sla": 0.999,
        "budget_level": "high"
    }
]

for req in test_requirements:
    config = cluster_manager.design_cluster_topology(req)
    
    print(f"\n   {req['name']}:")
    print(f"     拓扑类型: {config.topology.value}")
    print(f"     节点总数: {config.total_nodes}")
    print(f"     分片数量: {config.shard_count}")
    print(f"     副本数量: {config.replica_count}")
    print(f"     ZooKeeper: {'是' if config.zookeeper_nodes else '否'}")
    print(f"     负载均衡策略: {config.load_balancer_config['strategy']}")

print("\n2. 节点配置生成:")
# 使用中型环境配置
medium_config = cluster_manager.design_cluster_topology(test_requirements[1])
nodes = cluster_manager.generate_cluster_nodes(medium_config)

print(f"\n   集群: {medium_config.cluster_name}")
print(f"   节点配置:")

# 显示ClickHouse节点
ch_nodes = [n for n in nodes if n.role in [NodeRole.SHARD_MASTER, NodeRole.SHARD_REPLICA]]
for node in ch_nodes[:4]:  # 显示前4个节点
    print(f"     {node.node_id}: {node.hostname} ({node.role.value})")
    print(f"       分片: {node.shard_id}, 副本: {node.replica_id}")
    print(f"       资源: {node.cpu_cores}C/{node.memory_gb}GB/{node.disk_gb}GB")

# 显示ZooKeeper节点
zk_nodes = [n for n in nodes if n.role == NodeRole.ZOOKEEPER]
if zk_nodes:
    print(f"\n   ZooKeeper节点:")
    for node in zk_nodes:
        print(f"     {node.node_id}: {node.hostname}")
        print(f"       资源: {node.cpu_cores}C/{node.memory_gb}GB/{node.disk_gb}GB")

print("\n3. 部署配置生成:")
deployment_configs = {
    "kubernetes": cluster_manager.generate_deployment_config(medium_config, nodes, "kubernetes"),
    "docker_compose": cluster_manager.generate_deployment_config(medium_config, nodes, "docker_compose"),
    "ansible": cluster_manager.generate_deployment_config(medium_config, nodes, "ansible")
}

for deploy_type, config in deployment_configs.items():
    print(f"\n   {deploy_type.title()} 配置:")
    if deploy_type == "kubernetes":
        print(f"     ConfigMap: {config['configmap']['metadata']['name']}")
        print(f"     StatefulSet: {config['statefulset']['metadata']['name']}")
        print(f"     副本数: {config['statefulset']['spec']['replicas']}")
    elif deploy_type == "docker_compose":
        print(f"     服务数量: {len(config['services'])}")
        print(f"     网络: {list(config['networks'].keys())[0]}")
        print(f"     存储卷: {len(config['volumes'])}个")
    elif deploy_type == "ansible":
        print(f"     主机组: {len(config['inventory']['all']['children'])}个")
        print(f"     任务数: {len(config['playbook']['tasks'])}个")
        print(f"     变量: {len(config['playbook']['vars'])}个")

print("\n4. 资源需求估算:")
resource_estimation = cluster_manager.estimate_deployment_resources(medium_config, nodes)

print(f"\n   ClickHouse集群:")
ch_resources = resource_estimation['clickhouse_nodes']
print(f"     节点数量: {ch_resources['count']}")
print(f"     CPU核心: {ch_resources['total_cpu_cores']}")
print(f"     内存: {ch_resources['total_memory_gb']}GB")
print(f"     存储: {ch_resources['total_disk_gb']}GB")

if resource_estimation['zookeeper_nodes']['count'] > 0:
    print(f"\n   ZooKeeper集群:")
    zk_resources = resource_estimation['zookeeper_nodes']
    print(f"     节点数量: {zk_resources['count']}")
    print(f"     CPU核心: {zk_resources['total_cpu_cores']}")
    print(f"     内存: {zk_resources['total_memory_gb']}GB")

print(f"\n   成本估算 (USD):")
cost_breakdown = resource_estimation['cost_estimation_usd']['monthly_breakdown']
for category, cost in list(cost_breakdown.items())[:3]:
    print(f"     {category}: ${cost:.0f}/月")
print(f"     总计: ${resource_estimation['cost_estimation_usd']['total_monthly']:.0f}/月")

print(f"\n   部署时间估算:")
deployment_time = resource_estimation['deployment_time']
print(f"     手动部署: {deployment_time['manual_hours']:.0f}小时")
print(f"     自动化部署: {deployment_time['automated_hours']:.0f}小时")
print(f"     测试验证: {deployment_time['testing_hours']:.0f}小时")

print("\n5. 拓扑特性对比:")
for topology, template in list(cluster_manager.topology_templates.items())[:3]:
    print(f"\n   {topology.value.title()}:")
    print(f"     描述: {template['description']}")
    print(f"     推荐节点数: {template['recommended_nodes']}")
    print(f"     主要优势: {', '.join(template['advantages'][:2])}")
    print(f"     适用场景: {', '.join(template['use_cases'][:2])}")

集群监控与运维

监控系统设计

集群监控是确保ClickHouse稳定运行的关键，需要建立完善的监控体系。

from enum import Enum
from dataclasses import dataclass
from typing import Dict, List, Any, Optional, Tuple
import time
import random
import json
from datetime import datetime, timedelta

class MonitoringLevel(Enum):
    """监控级别"""
    BASIC = "basic"
    STANDARD = "standard"
    ADVANCED = "advanced"
    ENTERPRISE = "enterprise"

class AlertSeverity(Enum):
    """告警严重级别"""
    CRITICAL = "critical"
    WARNING = "warning"
    INFO = "info"
    DEBUG = "debug"

class MetricCategory(Enum):
    """指标分类"""
    SYSTEM = "system"
    CLUSTER = "cluster"
    QUERY = "query"
    STORAGE = "storage"
    NETWORK = "network"
    APPLICATION = "application"

@dataclass
class MonitoringMetric:
    """监控指标"""
    name: str
    category: MetricCategory
    description: str
    unit: str
    collection_interval: int  # 秒
    retention_days: int
    thresholds: Dict[AlertSeverity, float]
    query: str
    is_enabled: bool = True

@dataclass
class AlertRule:
    """告警规则"""
    rule_id: str
    name: str
    metric_name: str
    condition: str  # >, <, >=, <=, ==, !=
    threshold: float
    severity: AlertSeverity
    duration_minutes: int
    notification_channels: List[str]
    is_enabled: bool = True

@dataclass
class MonitoringDashboard:
    """监控仪表板"""
    dashboard_id: str
    name: str
    description: str
    panels: List[Dict[str, Any]]
    refresh_interval: int
    time_range: str
    tags: List[str]

@dataclass
class MaintenanceTask:
    """运维任务"""
    task_id: str
    name: str
    description: str
    task_type: str  # backup, cleanup, optimization, update
    schedule_cron: str
    estimated_duration_minutes: int
    dependencies: List[str]
    rollback_plan: str
    is_enabled: bool = True

class ClickHouseMonitoringManager:
    """ClickHouse监控管理器"""
    
    def __init__(self):
        self.monitoring_metrics = self._initialize_monitoring_metrics()
        self.alert_rules = self._initialize_alert_rules()
        self.dashboards = self._initialize_dashboards()
        self.maintenance_tasks = self._initialize_maintenance_tasks()
    
    def _initialize_monitoring_metrics(self) -> Dict[str, MonitoringMetric]:
        """初始化监控指标"""
        metrics = {}
        
        # 系统指标
        system_metrics = [
            {
                "name": "cpu_usage_percent",
                "description": "CPU使用率",
                "unit": "percent",
                "query": "SELECT avg(CPUUsagePercent) FROM system.asynchronous_metrics",
                "thresholds": {AlertSeverity.CRITICAL: 90, AlertSeverity.WARNING: 80}
            },
            {
                "name": "memory_usage_percent",
                "description": "内存使用率",
                "unit": "percent",
                "query": "SELECT (MemoryResident / MemoryVirtual) * 100 FROM system.asynchronous_metrics",
                "thresholds": {AlertSeverity.CRITICAL: 95, AlertSeverity.WARNING: 85}
            },
            {
                "name": "disk_usage_percent",
                "description": "磁盘使用率",
                "unit": "percent",
                "query": "SELECT (used_space / total_space) * 100 FROM system.disks",
                "thresholds": {AlertSeverity.CRITICAL: 90, AlertSeverity.WARNING: 80}
            },
            {
                "name": "load_average",
                "description": "系统负载",
                "unit": "count",
                "query": "SELECT LoadAverage1 FROM system.asynchronous_metrics",
                "thresholds": {AlertSeverity.CRITICAL: 10, AlertSeverity.WARNING: 5}
            }
        ]
        
        for metric_data in system_metrics:
            metrics[metric_data["name"]] = MonitoringMetric(
                name=metric_data["name"],
                category=MetricCategory.SYSTEM,
                description=metric_data["description"],
                unit=metric_data["unit"],
                collection_interval=60,
                retention_days=30,
                thresholds=metric_data["thresholds"],
                query=metric_data["query"]
            )
        
        # 集群指标
        cluster_metrics = [
            {
                "name": "cluster_node_count",
                "description": "集群节点数量",
                "unit": "count",
                "query": "SELECT count() FROM system.clusters WHERE cluster = 'default'",
                "thresholds": {AlertSeverity.CRITICAL: 1, AlertSeverity.WARNING: 2}
            },
            {
                "name": "replica_lag_seconds",
                "description": "副本延迟",
                "unit": "seconds",
                "query": "SELECT max(absolute_delay) FROM system.replicas",
                "thresholds": {AlertSeverity.CRITICAL: 300, AlertSeverity.WARNING: 60}
            },
            {
                "name": "failed_parts_count",
                "description": "失败分区数量",
                "unit": "count",
                "query": "SELECT count() FROM system.parts WHERE active = 0",
                "thresholds": {AlertSeverity.CRITICAL: 10, AlertSeverity.WARNING: 5}
            }
        ]
        
        for metric_data in cluster_metrics:
            metrics[metric_data["name"]] = MonitoringMetric(
                name=metric_data["name"],
                category=MetricCategory.CLUSTER,
                description=metric_data["description"],
                unit=metric_data["unit"],
                collection_interval=120,
                retention_days=90,
                thresholds=metric_data["thresholds"],
                query=metric_data["query"]
            )
        
        # 查询指标
        query_metrics = [
            {
                "name": "query_duration_ms",
                "description": "查询执行时间",
                "unit": "milliseconds",
                "query": "SELECT avg(query_duration_ms) FROM system.query_log WHERE event_time > now() - 300",
                "thresholds": {AlertSeverity.CRITICAL: 10000, AlertSeverity.WARNING: 5000}
            },
            {
                "name": "queries_per_second",
                "description": "每秒查询数",
                "unit": "qps",
                "query": "SELECT count() / 60 FROM system.query_log WHERE event_time > now() - 60",
                "thresholds": {AlertSeverity.CRITICAL: 1000, AlertSeverity.WARNING: 500}
            },
            {
                "name": "failed_queries_percent",
                "description": "查询失败率",
                "unit": "percent",
                "query": "SELECT (countIf(exception != '') / count()) * 100 FROM system.query_log WHERE event_time > now() - 300",
                "thresholds": {AlertSeverity.CRITICAL: 5, AlertSeverity.WARNING: 2}
            }
        ]
        
        for metric_data in query_metrics:
            metrics[metric_data["name"]] = MonitoringMetric(
                name=metric_data["name"],
                category=MetricCategory.QUERY,
                description=metric_data["description"],
                unit=metric_data["unit"],
                collection_interval=60,
                retention_days=30,
                thresholds=metric_data["thresholds"],
                query=metric_data["query"]
            )
        
        return metrics
    
    def _initialize_alert_rules(self) -> List[AlertRule]:
        """初始化告警规则"""
        return [
            AlertRule(
                rule_id="cpu_high",
                name="CPU使用率过高",
                metric_name="cpu_usage_percent",
                condition=">",
                threshold=80,
                severity=AlertSeverity.WARNING,
                duration_minutes=5,
                notification_channels=["email", "slack"]
            ),
            AlertRule(
                rule_id="memory_critical",
                name="内存使用率严重",
                metric_name="memory_usage_percent",
                condition=">",
                threshold=95,
                severity=AlertSeverity.CRITICAL,
                duration_minutes=2,
                notification_channels=["email", "slack", "sms"]
            ),
            AlertRule(
                rule_id="disk_space_low",
                name="磁盘空间不足",
                metric_name="disk_usage_percent",
                condition=">",
                threshold=85,
                severity=AlertSeverity.WARNING,
                duration_minutes=10,
                notification_channels=["email"]
            ),
            AlertRule(
                rule_id="replica_lag_high",
                name="副本延迟过高",
                metric_name="replica_lag_seconds",
                condition=">",
                threshold=60,
                severity=AlertSeverity.WARNING,
                duration_minutes=5,
                notification_channels=["email", "slack"]
            ),
            AlertRule(
                rule_id="query_failure_rate_high",
                name="查询失败率过高",
                metric_name="failed_queries_percent",
                condition=">",
                threshold=2,
                severity=AlertSeverity.WARNING,
                duration_minutes=3,
                notification_channels=["email", "slack"]
            )
        ]
    
    def _initialize_dashboards(self) -> List[MonitoringDashboard]:
        """初始化监控仪表板"""
        return [
            MonitoringDashboard(
                dashboard_id="cluster_overview",
                name="集群概览",
                description="ClickHouse集群整体状态监控",
                panels=[
                    {
                        "title": "集群节点状态",
                        "type": "stat",
                        "metrics": ["cluster_node_count"],
                        "size": {"width": 6, "height": 4}
                    },
                    {
                        "title": "系统资源使用率",
                        "type": "graph",
                        "metrics": ["cpu_usage_percent", "memory_usage_percent", "disk_usage_percent"],
                        "size": {"width": 12, "height": 6}
                    },
                    {
                        "title": "查询性能",
                        "type": "graph",
                        "metrics": ["queries_per_second", "query_duration_ms"],
                        "size": {"width": 12, "height": 6}
                    }
                ],
                refresh_interval=30,
                time_range="1h",
                tags=["cluster", "overview"]
            ),
            MonitoringDashboard(
                dashboard_id="performance_details",
                name="性能详情",
                description="详细的性能指标监控",
                panels=[
                    {
                        "title": "查询执行时间分布",
                        "type": "histogram",
                        "metrics": ["query_duration_ms"],
                        "size": {"width": 12, "height": 6}
                    },
                    {
                        "title": "副本同步状态",
                        "type": "table",
                        "metrics": ["replica_lag_seconds"],
                        "size": {"width": 12, "height": 8}
                    }
                ],
                refresh_interval=60,
                time_range="6h",
                tags=["performance", "details"]
            ),
            MonitoringDashboard(
                dashboard_id="system_health",
                name="系统健康",
                description="系统级别的健康状态监控",
                panels=[
                    {
                        "title": "系统负载",
                        "type": "graph",
                        "metrics": ["load_average"],
                        "size": {"width": 6, "height": 6}
                    },
                    {
                        "title": "失败分区统计",
                        "type": "stat",
                        "metrics": ["failed_parts_count"],
                        "size": {"width": 6, "height": 4}
                    }
                ],
                refresh_interval=120,
                time_range="24h",
                tags=["system", "health"]
            )
        ]
    
    def _initialize_maintenance_tasks(self) -> List[MaintenanceTask]:
        """初始化运维任务"""
        return [
            MaintenanceTask(
                task_id="daily_backup",
                name="每日数据备份",
                description="执行增量数据备份到远程存储",
                task_type="backup",
                schedule_cron="0 2 * * *",  # 每天凌晨2点
                estimated_duration_minutes=120,
                dependencies=[],
                rollback_plan="从前一天的备份恢复数据"
            ),
            MaintenanceTask(
                task_id="weekly_cleanup",
                name="每周日志清理",
                description="清理过期的日志文件和临时文件",
                task_type="cleanup",
                schedule_cron="0 3 * * 0",  # 每周日凌晨3点
                estimated_duration_minutes=30,
                dependencies=["daily_backup"],
                rollback_plan="从备份恢复误删的重要日志"
            ),
            MaintenanceTask(
                task_id="monthly_optimization",
                name="每月性能优化",
                description="执行表优化、索引重建等性能优化任务",
                task_type="optimization",
                schedule_cron="0 4 1 * *",  # 每月1号凌晨4点
                estimated_duration_minutes=240,
                dependencies=["weekly_cleanup"],
                rollback_plan="回滚到优化前的表结构和配置"
            ),
            MaintenanceTask(
                task_id="security_update",
                name="安全更新检查",
                description="检查并应用安全补丁和更新",
                task_type="update",
                schedule_cron="0 5 * * 1",  # 每周一凌晨5点
                estimated_duration_minutes=60,
                dependencies=[],
                rollback_plan="回滚到更新前的版本"
            )
        ]
    
    def generate_monitoring_config(self, level: MonitoringLevel) -> Dict[str, Any]:
        """生成监控配置"""
        config = {
            "monitoring_level": level.value,
            "metrics": {},
            "alerts": [],
            "dashboards": [],
            "exporters": {},
            "storage": {}
        }
        
        # 根据监控级别选择指标
        if level == MonitoringLevel.BASIC:
            selected_metrics = ["cpu_usage_percent", "memory_usage_percent", "disk_usage_percent"]
        elif level == MonitoringLevel.STANDARD:
            selected_metrics = ["cpu_usage_percent", "memory_usage_percent", "disk_usage_percent", 
                              "cluster_node_count", "queries_per_second"]
        elif level == MonitoringLevel.ADVANCED:
            selected_metrics = list(self.monitoring_metrics.keys())[:8]
        else:  # ENTERPRISE
            selected_metrics = list(self.monitoring_metrics.keys())
        
        # 配置指标
        for metric_name in selected_metrics:
            if metric_name in self.monitoring_metrics:
                metric = self.monitoring_metrics[metric_name]
                config["metrics"][metric_name] = {
                    "description": metric.description,
                    "unit": metric.unit,
                    "collection_interval": metric.collection_interval,
                    "retention_days": metric.retention_days,
                    "query": metric.query,
                    "thresholds": {sev.value: val for sev, val in metric.thresholds.items()}
                }
        
        # 配置告警规则
        for alert in self.alert_rules:
            if alert.metric_name in selected_metrics:
                config["alerts"].append({
                    "rule_id": alert.rule_id,
                    "name": alert.name,
                    "metric": alert.metric_name,
                    "condition": f"{alert.condition} {alert.threshold}",
                    "severity": alert.severity.value,
                    "duration": f"{alert.duration_minutes}m",
                    "notifications": alert.notification_channels
                })
        
        # 配置仪表板
        if level in [MonitoringLevel.STANDARD, MonitoringLevel.ADVANCED, MonitoringLevel.ENTERPRISE]:
            config["dashboards"] = [
                {
                    "id": dashboard.dashboard_id,
                    "name": dashboard.name,
                    "description": dashboard.description,
                    "refresh_interval": dashboard.refresh_interval,
                    "panels": len(dashboard.panels)
                }
                for dashboard in self.dashboards
            ]
        
        # 配置导出器
        config["exporters"] = {
            "prometheus": {
                "enabled": level != MonitoringLevel.BASIC,
                "port": 9363,
                "metrics_path": "/metrics",
                "scrape_interval": "30s"
            },
            "grafana": {
                "enabled": level in [MonitoringLevel.ADVANCED, MonitoringLevel.ENTERPRISE],
                "port": 3000,
                "admin_password": "admin123",
                "datasource": "prometheus"
            },
            "alertmanager": {
                "enabled": level in [MonitoringLevel.ADVANCED, MonitoringLevel.ENTERPRISE],
                "port": 9093,
                "webhook_url": "http://localhost:9093/api/v1/alerts"
            }
        }
        
        # 配置存储
        config["storage"] = {
            "prometheus": {
                "retention": "30d" if level == MonitoringLevel.BASIC else "90d",
                "storage_size": "10GB" if level == MonitoringLevel.BASIC else "50GB"
            },
            "logs": {
                "retention_days": 7 if level == MonitoringLevel.BASIC else 30,
                "max_size_gb": 5 if level == MonitoringLevel.BASIC else 20
            }
        }
        
        return config
    
    def generate_prometheus_config(self, cluster_nodes: List[ClusterNode]) -> str:
        """生成Prometheus配置"""
        config = """global:
  scrape_interval: 30s
  evaluation_interval: 30s

rule_files:
  - "clickhouse_rules.yml"

alerting:
  alertmanagers:
    - static_configs:
        - targets:
          - alertmanager:9093

scrape_configs:
  - job_name: 'clickhouse'
    static_configs:
      - targets:
"""
        
        # 添加ClickHouse节点
        ch_nodes = [node for node in cluster_nodes if node.role in [NodeRole.SHARD_MASTER, NodeRole.SHARD_REPLICA]]
        for node in ch_nodes:
            config += f"        - '{node.hostname}:9363'\n"
        
        config += """
    metrics_path: /metrics
    scrape_interval: 30s
    scrape_timeout: 10s

  - job_name: 'clickhouse-exporter'
    static_configs:
      - targets:
"""
        
        # 添加ClickHouse Exporter
        for node in ch_nodes:
            config += f"        - '{node.hostname}:9116'\n"
        
        config += """
    metrics_path: /metrics
    scrape_interval: 30s

  - job_name: 'node-exporter'
    static_configs:
      - targets:
"""
        
        # 添加Node Exporter
        for node in cluster_nodes:
            config += f"        - '{node.hostname}:9100'\n"
        
        return config
    
    def generate_grafana_dashboards(self) -> Dict[str, Dict[str, Any]]:
        """生成Grafana仪表板配置"""
        dashboards = {}
        
        for dashboard in self.dashboards:
            grafana_dashboard = {
                "dashboard": {
                    "id": None,
                    "title": dashboard.name,
                    "description": dashboard.description,
                    "tags": dashboard.tags,
                    "timezone": "browser",
                    "refresh": f"{dashboard.refresh_interval}s",
                    "time": {
                        "from": f"now-{dashboard.time_range}",
                        "to": "now"
                    },
                    "panels": []
                }
            }
            
            # 生成面板配置
            panel_id = 1
            for panel in dashboard.panels:
                grafana_panel = {
                    "id": panel_id,
                    "title": panel["title"],
                    "type": panel["type"],
                    "gridPos": {
                        "h": panel["size"]["height"],
                        "w": panel["size"]["width"],
                        "x": 0,
                        "y": (panel_id - 1) * panel["size"]["height"]
                    },
                    "targets": []
                }
                
                # 添加指标查询
                for metric_name in panel["metrics"]:
                    if metric_name in self.monitoring_metrics:
                        metric = self.monitoring_metrics[metric_name]
                        grafana_panel["targets"].append({
                            "expr": f"clickhouse_{metric_name}",
                            "legendFormat": metric.description,
                            "refId": f"A{len(grafana_panel['targets']) + 1}"
                        })
                
                grafana_dashboard["dashboard"]["panels"].append(grafana_panel)
                panel_id += 1
            
            dashboards[dashboard.dashboard_id] = grafana_dashboard
        
        return dashboards
    
    def create_maintenance_schedule(self, cluster_config: ClusterConfiguration) -> Dict[str, Any]:
        """创建运维计划"""
        schedule = {
            "cluster_name": cluster_config.cluster_name,
            "maintenance_windows": [],
            "tasks": [],
            "emergency_procedures": [],
            "rollback_plans": []
        }
        
        # 定义维护窗口
        maintenance_windows = [
            {
                "name": "daily_maintenance",
                "description": "日常维护窗口",
                "schedule": "0 2-4 * * *",  # 每天凌晨2-4点
                "duration_hours": 2,
                "allowed_operations": ["backup", "cleanup", "monitoring"]
            },
            {
                "name": "weekly_maintenance",
                "description": "周维护窗口",
                "schedule": "0 2-6 * * 0",  # 每周日凌晨2-6点
                "duration_hours": 4,
                "allowed_operations": ["optimization", "update", "configuration"]
            },
            {
                "name": "monthly_maintenance",
                "description": "月维护窗口",
                "schedule": "0 2-8 1 * *",  # 每月1号凌晨2-8点
                "duration_hours": 6,
                "allowed_operations": ["major_update", "hardware_maintenance", "disaster_recovery_test"]
            }
        ]
        
        schedule["maintenance_windows"] = maintenance_windows
        
        # 添加维护任务
        for task in self.maintenance_tasks:
            schedule["tasks"].append({
                "task_id": task.task_id,
                "name": task.name,
                "description": task.description,
                "type": task.task_type,
                "schedule": task.schedule_cron,
                "duration_minutes": task.estimated_duration_minutes,
                "dependencies": task.dependencies,
                "rollback_plan": task.rollback_plan,
                "automation_level": "full" if task.task_type in ["backup", "cleanup"] else "semi"
            })
        
        # 应急处理程序
        emergency_procedures = [
            {
                "scenario": "node_failure",
                "description": "单节点故障处理",
                "steps": [
                    "1. 确认节点状态和故障类型",
                    "2. 检查副本状态，确保数据完整性",
                    "3. 从负载均衡器移除故障节点",
                    "4. 启动故障节点恢复程序",
                    "5. 验证数据一致性",
                    "6. 重新加入集群"
                ],
                "estimated_time_minutes": 30,
                "required_permissions": ["cluster_admin", "system_admin"]
            },
            {
                "scenario": "data_corruption",
                "description": "数据损坏处理",
                "steps": [
                    "1. 立即停止写入操作",
                    "2. 识别损坏的数据范围",
                    "3. 从备份恢复损坏的数据",
                    "4. 验证数据完整性",
                    "5. 重新启用写入操作",
                    "6. 更新监控和告警"
                ],
                "estimated_time_minutes": 120,
                "required_permissions": ["data_admin", "backup_admin"]
            },
            {
                "scenario": "performance_degradation",
                "description": "性能下降处理",
                "steps": [
                    "1. 分析性能指标和查询日志",
                    "2. 识别性能瓶颈",
                    "3. 应用临时优化措施",
                    "4. 调整查询负载分布",
                    "5. 监控性能恢复情况",
                    "6. 制定长期优化计划"
                ],
                "estimated_time_minutes": 60,
                "required_permissions": ["performance_admin"]
            }
        ]
        
        schedule["emergency_procedures"] = emergency_procedures
        
        # 回滚计划
        rollback_plans = [
            {
                "operation_type": "configuration_change",
                "description": "配置变更回滚",
                "steps": [
                    "1. 停止ClickHouse服务",
                    "2. 恢复配置文件备份",
                    "3. 重启ClickHouse服务",
                    "4. 验证服务状态",
                    "5. 检查集群连接"
                ],
                "estimated_time_minutes": 15
            },
            {
                "operation_type": "version_upgrade",
                "description": "版本升级回滚",
                "steps": [
                    "1. 停止新版本服务",
                    "2. 卸载新版本软件",
                    "3. 安装旧版本软件",
                    "4. 恢复数据文件",
                    "5. 启动服务并验证"
                ],
                "estimated_time_minutes": 45
            }
        ]
        
        schedule["rollback_plans"] = rollback_plans
        
        return schedule
    
    def generate_monitoring_alerts_config(self) -> str:
        """生成监控告警配置"""
        config = """groups:
  - name: clickhouse.rules
    rules:
"""
        
        for alert in self.alert_rules:
            if alert.metric_name in self.monitoring_metrics:
                metric = self.monitoring_metrics[alert.metric_name]
                config += f"""      - alert: {alert.name.replace(' ', '_')}
        expr: {metric.name} {alert.condition} {alert.threshold}
        for: {alert.duration_minutes}m
        labels:
          severity: {alert.severity.value}
          service: clickhouse
        annotations:
          summary: \"{alert.name}\"
          description: \"{{{{ $labels.instance }}}} {alert.name}: {{{{ $value }}}}{metric.unit}\"

"""
        
        return config

# 监控运维示例
print("\n\n=== ClickHouse集群监控与运维 ===")

monitoring_manager = ClickHouseMonitoringManager()

print("\n1. 监控配置生成:")
for level in [MonitoringLevel.BASIC, MonitoringLevel.STANDARD, MonitoringLevel.ENTERPRISE]:
    config = monitoring_manager.generate_monitoring_config(level)
    
    print(f"\n   {level.value.title()} 级别:")
    print(f"     监控指标: {len(config['metrics'])}个")
    print(f"     告警规则: {len(config['alerts'])}个")
    print(f"     仪表板: {len(config['dashboards'])}个")
    print(f"     Prometheus: {'启用' if config['exporters']['prometheus']['enabled'] else '禁用'}")
    print(f"     Grafana: {'启用' if config['exporters']['grafana']['enabled'] else '禁用'}")
    print(f"     数据保留: {config['storage']['prometheus']['retention']}")

print("\n2. 关键监控指标:")
key_metrics = ["cpu_usage_percent", "memory_usage_percent", "queries_per_second", "replica_lag_seconds"]
for metric_name in key_metrics:
    if metric_name in monitoring_manager.monitoring_metrics:
        metric = monitoring_manager.monitoring_metrics[metric_name]
        print(f"\n   {metric.name}:")
        print(f"     描述: {metric.description}")
        print(f"     单位: {metric.unit}")
        print(f"     采集间隔: {metric.collection_interval}秒")
        print(f"     告警阈值: {dict(list(metric.thresholds.items())[:2])}")

print("\n3. 告警规则配置:")
for alert in monitoring_manager.alert_rules[:3]:
    print(f"\n   {alert.name}:")
    print(f"     指标: {alert.metric_name}")
    print(f"     条件: {alert.condition} {alert.threshold}")
    print(f"     严重级别: {alert.severity.value}")
    print(f"     持续时间: {alert.duration_minutes}分钟")
    print(f"     通知渠道: {', '.join(alert.notification_channels)}")

print("\n4. 仪表板配置:")
for dashboard in monitoring_manager.dashboards:
    print(f"\n   {dashboard.name}:")
    print(f"     描述: {dashboard.description}")
    print(f"     面板数量: {len(dashboard.panels)}个")
    print(f"     刷新间隔: {dashboard.refresh_interval}秒")
    print(f"     时间范围: {dashboard.time_range}")
    print(f"     标签: {', '.join(dashboard.tags)}")

print("\n5. 运维任务计划:")
for task in monitoring_manager.maintenance_tasks:
    print(f"\n   {task.name}:")
    print(f"     类型: {task.task_type}")
    print(f"     计划: {task.schedule_cron}")
    print(f"     预计时长: {task.estimated_duration_minutes}分钟")
    print(f"     依赖: {', '.join(task.dependencies) if task.dependencies else '无'}")

# 生成示例集群的维护计划
print("\n6. 维护计划示例:")
sample_config = ClusterConfiguration(
    cluster_name="production-cluster",
    topology=ClusterTopology.SHARDED_REPLICATED,
    total_nodes=6,
    shard_count=3,
    replica_count=2,
    zookeeper_nodes=["zk1:2181", "zk2:2181", "zk3:2181"],
    load_balancer_config={},
    security_config={},
    backup_config={}
)

maintenance_schedule = monitoring_manager.create_maintenance_schedule(sample_config)

print(f"\n   集群: {maintenance_schedule['cluster_name']}")
print(f"   维护窗口: {len(maintenance_schedule['maintenance_windows'])}个")
print(f"   计划任务: {len(maintenance_schedule['tasks'])}个")
print(f"   应急程序: {len(maintenance_schedule['emergency_procedures'])}个")
print(f"   回滚计划: {len(maintenance_schedule['rollback_plans'])}个")

print("\n   维护窗口详情:")
for window in maintenance_schedule['maintenance_windows']:
    print(f"     {window['name']}: {window['description']}")
    print(f"       时间: {window['schedule']} ({window['duration_hours']}小时)")
    print(f"       允许操作: {', '.join(window['allowed_operations'])}")

print("\n   应急处理程序:")
for procedure in maintenance_schedule['emergency_procedures'][:2]:
    print(f"     {procedure['scenario']}: {procedure['description']}")
    print(f"       预计时间: {procedure['estimated_time_minutes']}分钟")
    print(f"       所需权限: {', '.join(procedure['required_permissions'])}")

总结

关键要点

1. 集群架构设计

拓扑选择: 根据业务需求选择合适的集群拓扑（单节点、主从复制、分片集群、分片复制）
节点规划: 合理规划分片数量、副本数量和节点角色分配
资源配置: 根据数据量和查询负载估算硬件资源需求
网络设计: 确保节点间网络连通性和带宽充足

2. 部署策略

容器化部署: 使用Docker和Kubernetes实现标准化部署
自动化运维: 通过Ansible等工具实现配置管理和批量部署
配置管理: 统一管理集群配置，支持动态配置更新
安全配置: 实施访问控制、数据加密和网络安全措施

3. 监控运维

多层监控: 建立系统、集群、查询、存储等多层次监控体系
告警机制: 设置合理的告警阈值和通知渠道
性能监控: 持续监控查询性能、资源使用和集群健康状态
运维自动化: 建立定期维护任务和应急处理流程

最佳实践

1. 集群规划最佳实践

容量规划: 预留30-50%的资源余量，支持业务增长
分片策略: 根据数据分布特征选择合适的分片键
副本配置: 至少配置2个副本，确保高可用性
ZooKeeper集群: 使用奇数个ZooKeeper节点，建议3或5个

2. 部署配置最佳实践

环境隔离: 生产、测试、开发环境完全隔离
配置标准化: 使用配置模板，确保环境一致性
版本管理: 统一管理ClickHouse版本，制定升级策略
备份策略: 建立多层备份机制，定期验证备份有效性

3. 监控运维最佳实践

监控覆盖: 覆盖硬件、系统、应用、业务等各个层面
告警分级: 根据影响程度设置不同级别的告警
文档管理: 维护详细的运维文档和操作手册
故障演练: 定期进行故障演练，验证应急响应能力

4. 性能优化最佳实践

硬件优化: 使用SSD存储，配置充足的内存和CPU
网络优化: 使用高速网络，减少网络延迟
查询优化: 优化查询语句，合理使用索引
数据分布: 确保数据在各分片间均匀分布

5. 安全管理最佳实践

访问控制: 实施基于角色的访问控制（RBAC）
数据加密: 对敏感数据进行加密存储和传输
审计日志: 记录所有数据库操作，便于安全审计
网络安全: 使用防火墙和VPN保护集群网络

下一步学习

完成本章学习后，建议继续学习以下内容：

数据建模与设计
- 学习ClickHouse数据建模最佳实践
- 掌握表结构设计和优化技巧
- 了解数据分区和分片策略
高级查询技巧
- 学习复杂查询的编写和优化
- 掌握窗口函数和聚合函数的使用
- 了解查询执行计划分析
数据集成
- 学习与其他系统的数据集成
- 掌握实时数据流处理
- 了解ETL工具的使用
运维进阶
- 学习集群扩容和缩容
- 掌握故障排查和性能调优
- 了解容灾和备份恢复

通过本章的学习，您已经掌握了ClickHouse集群的部署、配置、监控和运维的核心技能。这些知识将为您在生产环境中成功运行ClickHouse集群提供坚实的基础。在实际应用中，请根据具体的业务需求和环境特点，灵活调整和优化集群配置。

📂 分类导航

▶ 学与练
- ▶ 软件技术基础
  - ▶ 操作系统技术
    - Linux实战
    - ▶ Linux技巧
      - debug-remote-api.md
  - ▶ 容器化与编排
    - Docker实战
    - ▶ Docker高级
- ▶ 前端开发技术
  - ▶ 框架与库
    - js
    - vue
  - ▶ 前端生态
    - bootstrap
    - vue-ssr
- ▶ 后端开发技术
  - ▶ 编程语言
    - ▶ Java
    - ▶ Go
      - go-server.md
      - mini.md
    - Rust
    - Python
    - csharp
  - ▶ 中间件
    - redis
    - ▶ minio
      - minio.md
    - elasticsearch
    - kafka
    - elk
    - caddy
  - ▶ 数据库
    - MySQL
    - SQLServer
    - ▶ Dameng
      - sql.md
    - clickhouse
- ▶ 数据开发与运维
  - ▶ 数据开发
    - hadoop
  - ▶ 运维开发
    - ▶ CI/CD
      - jenkins
    - ▶ 自动化
      - allinssl.md
    - ▶ 日志处理
      - elk
    - ▶ 监控
- 软件速学教程
▶ 软件园
- AI智能体与应用
- 开发工具与环境
- AI 开发和编排
- 业务与生产力应用
- 数据和中间件
▶ 工具箱
- 内容管理
- 编码解码
- ▶ 系统监控
  - miaotixing.md
- ▶ 日常工具
- 工具命令
- 使用教程

📚 06-ClickHouse集群部署与管理

概述