2017

dataelasticsearch

2017-12-05

Elasticsearch 备份、恢复

迁移注意事项保证 ES 集群不再接受新的数据(如果是备份的话，这一点可以不考虑，但是做数据迁移的话，建议这样做）。同一个 repository 只应有一个集群可写，其它集群都应以 readonly 模式连接。不建议直接在生产环境做这些操作，最好是先在本地搭建一个和生产环境一样的集群环境，创建一些测试数据，把整个过程先跑一遍，然后再到生产环境操作。 dn126 为要备份的源数据节点，而 loc

datapostgresql

2017-09-20

PostgreSQL 高可用-主/热备集群

高可用性：数据库服务器可以一起工作，这样如果主要的服务器失效则允许一个第二服务器快速接手它的任务负载均衡: 允许多个计算机提供相同的数据本文使用的主要技术有： CentOS 7 x86_64 PostgreSQL 9.6.5 系统安装、配置CentOS 7 安装12[hldev@centos7-001 ~]$ sudo yum -y install https://download

scalalearning scala

2017-09-13

学习Scala：环境、工具、工程

在本章中，你将学到如何从零使用Sbt来搭建一个Scala工程，如何将Scala工程导入Intellij IDEA集成开发环境。同时，我们将使用scalatest以TDD的方式来编写代码。本章的要点包括：下载并使用sbt: http://www.scala-sbt.org/ 使用Intellij IDEA编写Scala：https://www.jetbrains.com/idea/ 使用sca

work

2017-09-12

使用Sphinx撰写电子文档

在日常工作中，写电子文档是个很普遍的事情。之前一直用Microsoft Word、Libreoffice Writer来写，但总感觉不方便，很多的精力都浪费在了调整格式上。而使用 Sphinx 来写电子文档，则可以把你从调整格式的泥潭中解放出来。Sphinx 是一款基于 Python的文档处理工具，Python官方的文档就是使用它来写的。Sphinx 使用reStructuredText 格式来定

dataelasticsearch

2017-04-12

Elasticsearch 集群设置

Elasticsearch 是一个优秀的全文检索和分析引擎，由 Shay Banon 发起的一个开源搜索服务器项目，2010 年 2 月发布。具有分布式性质和实时功能。本文基于 5.x 版本，需要使用 Java 8 update 20 或更新版。配置Elasticsearch 使用很方便，默认开箱即用。不过做为一个集群，还是需要稍做一些配置。整个配置都位于 config 目录，可以看到两个文件

dataelasticsearch

2017-04-12

使用 HanLP 增强 Elasticsearch 分词功能

hanlp-ext 插件源码地址：https://github.com/hualongdata/hanlp-ext Elasticsearch 默认对中文分词是按“字”进行分词的，这是肯定不能达到我们进行分词搜索的要求的。官方有一个 SmartCN 中文分词插件，另外还有一个 IK 分词插件使用也比较广。但这里，我们采用 HanLP 这款自然语言处理工具来进行中文分词。 Elasticsear

scalaakka

2017-04-10

Akka HTTP 快速上手

Akka Http 是Akka社区提供的一个 Http服务端/客户端通用工具包，支持 Http 1.0/1.1标准及WebSocket，现在 Http 2 的支持也在紧锣密鼓的实现中。这篇文章将介绍Akka HTTP Server，我们将介绍Akka Http的常用功能模块及使用方式。Akka Http提供了一套强大、易用、易扩展的route dsl来构建路由。Akka Ht

dataambari/hdp

2017-04-06

使用 Ambari2.5（HDP2.6）搭建大数据环境

本文介绍在 CentOS 7 环境下使用 Ambari2.5 (HDP2.6) 搭建大数据环境。推荐使用如下脚本将 Ambari/HDP 相关软件包下到本地后配置 yum 源安装，在线安装速度太慢会经常遇到包找不到情况。 12345wget -c http://public-repo-1.hortonworks.com/ambari/centos7/2.x/updates/2.5.1.

datacassandra

2017-04-01

Cassandra 设置

操作系统修改操作系统的 TCP keepalive 1sudo /sbin/sysctl -w net.ipv4.tcp_keepalive_time=60 net.ipv4.tcp_keepalive_intvl=60 net.ipv4.tcp_keepalive_probes=5 集群机制一致性哈希 Gossip 协议：用于在环内节点之间传播 Cassandra 状态信息 Snitch：支

2016

data

2016-10-30

Linux 部署 Oracle11G

安装 Oracle 数据库本文基于 RHEL6/Centos6/Neokylin6，其它发行版请注意区别。安装依赖软件包 1sudo yum install binutils compat-libcap1 compat-libstdc++-33 compat-libstdc++-33.i686 gcc-c++ glibc glibc.i686 glibc-devel glib

scala

2016-10-10

Java/Scala互操作实践 1：基础操作

本文将以Spring Boot为例，介绍下实际工作中的Java/Scala互操作。在提高个人效率、满足自我追求的情况下更多的照顾到团队不同人的实际。同时也是想说明，在同一个工程里混用Java和Scala语言是可能的。本文源代码在：http://git.oschina.net/hualongdata/spring-starter 对于Scala不熟悉的Java程序员可以先看看：《写给J

scala

2016-08-25

Scala开发者的Spring-Boot快速上手指南 02：Scala惯用法

(这是一篇迟来的文章，从3月份计划到成文花了5个月多……以后需要避免这样的低效率。) 之前写第一篇文章时，只是想试试在Spring中使用Scala。但现在随着工作的需要，已经决定在应用层基于Spring boot进行开发。后面的数据服务和数据整合部分将采用Akka。作者是一个Scala粉，但不脑残。鉴于团队、招人及社区生态多方面考虑，整体使用Scala技术栈还是比较困难的。之前就有考虑过把Spri

2016-08-21

我的Ubuntu开发环境设置

输入法（fcitx）解决某些软件不能使用问题，如：Idea, Emacs 设置如下环境变量到/etc/bash.bashrc或~/.bashrc配置文件，重启系统或注销后重新登录即可。 1234export XMODIFIERS="@im=fcitx"export QT_IM_MODULE="fcitx"export QT4_IM_MODULE="

2016-07-26

About

这里有我的工作体会和生活感悟。杨景：yangjing.me 知乎专栏：羊八井花园 Github: yangjing Gitee：yangjing Weibo: yangjing Twitter: yangbajing1 微信公众号：yangjing-garden 技能擅长Java/Scala编程，熟悉多线程、并发程序设计熟悉actor（编程模型）、Akka，可基于JVM

scalascala实战

2016-07-25

Scala实战：巧用集合实现数据脱敏

（原文在：《http://www.yangjing.me/2016/07/25/Scala实战：巧用集合实现数据脱敏》，转载请注明！）在日常开发中，经常会遇到对数据进行脱敏处理的需求。像隐藏身份证或者手机号中间几位。比如对于：13812345678这个手机号，我们会使用*号替换中间4位来达到隐藏的目的，就像这样：138****5678。这是一个很常见也很简单的功能需求，这里记录下开发中对这个需求

scala

2016-07-24

写给Java程序员的Scala入门教程

（原文链接：http://www.yangjing.me/2016/07/24/写给java程序员的scala入门教程/，转载请注明）之前因为Spark的引入，写了一篇《写给Python程序员的Scala入门教程》。那篇文章简单对比了Scala与Python的异同，并介绍了一些Scala的常用编程技巧。今天这篇文章将面向广大的Java程序员，带领Javaer进入函数式编程的世界。 Java 8拥

scala

2016-06-29

Scala实战：使用Actor来控制集成API的并发请求

本文源码在：https://github.com/yangjing/scala-applications/tree/master/combine-request 背景最近在一些大数据相关工作，除了自身的数据外，我们也会接入很多外部的第3方数据。这些第3方数据提供商都提供了基于HTTP的服务。当然，这些数据是收费的。而且重复调用是需要重复收费的。这就需要我们在调用数据后把它存储下来，这样在一定时间内

work

2016-04-03

我会做的技术选型

Java/Scala：全功能的业务、服务端开发平台。大数据开发：Spark、Scala、Akka Node.js：前端不说了，还有其它更好的选择吗 Go：21世纪的C语言，分布式开发、API开发利器 Python：胶水、灵活的脚本语言。数据科学家的最爱开门见山，先表明下我的态度吧。以上4个是我的首先，个人认为很不错的技术选型。当然，也不是非此不可，技术选型这个除了从技术本身考虑

dataspark

2016-03-31

Hive 与 Spark

Spark 与 Hadoop 安装见此：安装 Spark1.5 与 Hadoop2.6 注意：Spark 官方提供的二进制发行版是不支持 hive 的，需要自行编译。安装 hive12wget -c http://mirrors.aliyun.com/apache/hive/hive-1.1.1/apache-hive-1.1.1-bin.tar.gztar apache-hive-1.1.

dataspark

2016-03-12

Spark 实战：工程实践

工欲善其事，必先利其器。（本文是基于 sbt 来配置 Spark 开发的工程化，支持 Scala/Java 编程语言。Python 和 R 用户需要使用其它方式来实现工程化。）今天谈谈 Spark 开发中的工程化问题。我们都知道 Spark 程序是在集群上跑的，需要把程序打包后使用 $SPARK_HOME/bin/spark-sumibt 到 Spark 集群上。在开发、测试时，每

主页