2024

bigdatapulsar

2024-07-03

通过 Pulsar CDC 获取 Postgres 数据表变更记录

在当今数据驱动的时代，数据的实时性、完整性和一致性成为了企业业务成功的关键因素。随着微服务单服单库（每个微服务都有自己单独的数据库）的应用，以及数据量的爆炸性增长和业务的快速迭代，传统的数据处理和同步方式已难以满足现代企业的需求。Apache Pulsar，作为一个云原生的分布式消息和流处理平台，凭借其卓越的吞吐量和低延迟特性，正在逐渐成为大数据和流处理领域的明星。而Pulsar CDC技术的引入

2021

bigdatapulsar

2021-04-13

Pulsar 2.7：集群，认证、授权，函数计算，CDC

一些问题 Apache Pulsar 2.7.1 当 Functions Worker 独立运行时，客户端需要直接 Worker，现在的 Pulsar 还不能通过 broker 找到 Worker 地址。社区已有相应的 PR #6425 修复当配置了 Pulsar 集群配置了认证/授权，且 connector 使用进程模式运行时，现在 connector 未继承 Functions

2020

bigdatagreenplum

2020-11-19

Greenplum 6.x 安装注意事项

/etc/sysctl.conf 设置注意12kernel.shmall=echo $(expr $(getconf _PHYS_PAGES) / 2)kernel.shmmax=echo $(expr $(getconf _PHYS_PAGES) / 2 \* $(getconf PAGESIZE))

bigdataflink

2020-06-04

Flink Kafka 确定一次消费与写入

Flink Kafka Exactly Once，确定一次消费/写入。示例代码：https://github.com/yangjing/learn-bigdata/tree/develop/learn-flink/src/main/scala/connector/kafka 。 ConsumerProducerProducer exactly once 需要启用 flink 的检查点，并

2019

bigdatapostgresql

2019-07-12

PostgreSQL高可用 - PG 11集群

《PostgreSQL从入门到不后悔》《PostgreSQL高可用：逻辑复制》《PostgreSQL高可用 - PG 11集群》高可用性：数据库服务器可以一起工作，这样如果主要的服务器失效则允许一个第二服务器快速接手它的任务负载均衡: 允许多个计算机提供相同的数据本文使用的主要技术有： CentOS 7 x86_64 PostgreSQL 11.4 系统安装、配置1234

bigdatapostgresql

2019-07-10

PostgreSQL高可用：逻辑复制

《PostgreSQL从入门到不后悔》《PostgreSQL高可用：逻辑复制》《PostgreSQL高可用 - PG 11集群》从PostgreSQL 10（以下简称PG）开始，PG支持逻辑复制能力，可实现仅复制部分表或PG服务器上的部分database。逻辑复制的一大优点是支持跨版本间复制，也不需要主从节点的操作系统和硬件架构相同。例如，我们可以实现一台Linux服务器上的PG 11和

2018

bigdataambari/hdp

2018-06-25

Ambari2.6（HDP2.6.5）安装记要

本文介绍在 CentOS 7 环境下使用 Ambari2.5 (HDP2.6) 搭建大数据环境。推荐使用如下脚本将 Ambari/HDP 相关软件包下到本地后配置 yum 源安装，在线安装速度太慢会经常遇到包找不到情况。 1234567891011nohup wget -c http://public-repo-1.hortonworks.com/ambari/centos7/2.x/

bigdatapostgresql

2018-02-05

PostgreSQL从入门到不后悔

《PostgreSQL从入门到不后悔》《PostgreSQL高可用：逻辑复制》《PostgreSQL高可用 - PG 11集群》安装 PostgreSQL 10下载 PostgreSQL 10，postgresql-10.1-3-linux-x64-binaries.tar.gz。下载地址：https://get.enterprisedb.com/postgresql/postgresq

2017

bigdataelasticsearch

2017-12-05

Elasticsearch备份、恢复

迁移注意事项保证ES集群不再接受新的数据(如果是备份的话，这一点可以不考虑，但是做数据迁移的话，建议这样做）。同一个repository只应有一个集群可写，其它集群都应以readonly模式连接。不建议直接在生产环境做这些操作，最好是先在本地搭建一个和生产环境一样的集群环境，创建一些测试数据，把整个过程先跑一遍，然后再到生产环境操作。 dn126 为要备份的源数据节点，而 localhost

bigdatapostgresql

2017-09-20

PostgreSQL高可用-主/热备集群

高可用性：数据库服务器可以一起工作，这样如果主要的服务器失效则允许一个第二服务器快速接手它的任务负载均衡: 允许多个计算机提供相同的数据本文使用的主要技术有： CentOS 7 x86_64 PostgreSQL 9.6.5 系统安装、配置CentOS 7 安装12[hldev@centos7-001 ~]$ sudo yum -y install https://download

bigdataelasticsearch

2017-04-12

Elasticsearch集群设置

Elasticsearch是一个优秀的全文检索和分析引擎，由Shay Banon发起的一个开源搜索服务器项目，2010年2月发布。具有分布式性质和实时功能。本文基于5.x版本，需要使用 Java 8 update 20或更新版。配置Elasticsearch使用很方便，默认开箱即用。不过做为一个集群，还是需要稍做一些配置。整个配置都位于 config 目录，可以看到两个文件：elasticse

bigdataelasticsearch

2017-04-12

使用HanLP增强Elasticsearch分词功能

hanlp-ext 插件源码地址：https://github.com/hualongdata/hanlp-ext Elasticsearch 默认对中文分词是按“字”进行分词的，这是肯定不能达到我们进行分词搜索的要求的。官方有一个 SmartCN 中文分词插件，另外还有一个 IK 分词插件使用也比较广。但这里，我们采用 HanLP 这款自然语言处理工具来进行中文分词。 Elasticsear

bigdataambari/hdp

2017-04-06

使用Ambari2.5（HDP2.6）搭建大数据环境

本文介绍在 CentOS 7 环境下使用 Ambari2.5 (HDP2.6) 搭建大数据环境。推荐使用如下脚本将 Ambari/HDP 相关软件包下到本地后配置 yum 源安装，在线安装速度太慢会经常遇到包找不到情况。 12345wget -c http://public-repo-1.hortonworks.com/ambari/centos7/2.x/updates/2.5.1.

bigdatacassandra

2017-04-01

Cassandra设置

操作系统修改操作系统的TCP keepalive 1sudo /sbin/sysctl -w net.ipv4.tcp_keepalive_time=60 net.ipv4.tcp_keepalive_intvl=60 net.ipv4.tcp_keepalive_probes=5 集群机制一致性哈希 Gossip协议：用于在环内节点之间传播Cassandra状态信息 Snitch：支持多个数

2016

bigdataspark

2016-03-31

Hive与Spark

Spark与Hadoop安装见此：安装Spark1.5与Hadoop2.6 注意：Spark官方提供的二进制发行版是不支持hive的，需要自行编译。安装hive12wget -c http://mirrors.aliyun.com/apache/hive/hive-1.1.1/apache-hive-1.1.1-bin.tar.gztar apache-hive-1.1.1-bin.tar.

bigdataspark

2016-03-12

Spark实战：工程实践

工欲善其事，必先利其器。（本文是基于 sbt 来配置 Spark 开发的工程化，支持 Scala/Java 编程语言。Python 和 R 用户需要使用其它方式来实现工程化。）今天谈谈Spark开发中的工程化问题。我们都知道Spark程序是在集群上跑的，需要把程序打包后使用 $SPARK_HOME/bin/spark-sumibt 到Spark集群上。在开发、测试时，每次代码修改后

bigdatacassandra

2016-03-07

Cassandra升级更新

今天需要把集群安装的 cassandra 2.2.4 升级到 cassandra 2.2.5 ，这里记录下升级步骤。（升级脚本见：https://gist.github.com/yangjing/12461fcab190689f2499）升级的主意事项和限制条件需求条件 Cassandra 2.0.x and 2.1.x: 需要 JRE 7 或更高版本（推荐JDK） Cassandra 2.

bigdata

2016-02-27

安装Spark1.5.2与Hadoop2.6.2

适用于 Hadoop 2.9 build spark 1.5.212./dev/change-scala-version.sh 2.11./make-distribution.sh --name hadoop2.6-scala2.11 --tgz -Phadoop-2.6 -Pyarn -Phive -Phive-thriftserver -Dscala-2.11 1.6+可以添加：-Pspar

bigdatacassandra

2016-01-23

Cassandra用户认证

Cassandra默认是不需要用户名和密码登录的，这样其实并不安全。修改配置文件：conf/cassandra.yaml 启动用户名密码登录： 12authenticator: PasswordAuthenticatorauthorizer: CassandraAuthorizer 重新启动Cassandra，再次使用 bin/cqlsh 登录会提示 **Authentic

bigdata

2016-01-11

Mongodb 3.x 用户认证

Mongodb 3.x 的用户认证和 2.x 方式不一样，创建用户的语法已由 addUser 成成 createUser 了。创建账号首先不使用 --auth 参数启动Mongodb， 1/opt/local/mongodb/mongodb-3.0/bin/mongod -f /opt/local/mongodb/etc/mongod.conf 此时登陆Mongodb并执行 show dbs

分类: bigdata