Apache PredictionIO机器学习和智能推荐服务搭建

一、PredictionIO介绍
Apache PredictionIO 是一个孵化中的机器学习服务器,它可以为为开发人员和数据科学家创建任何机器学习任务的预测引擎。官方原文:

Apache PredictionIO (incubating) is an open source Machine Learning Server built on 
top of a state-of-the-art open source stack for developers and data scientists 
to create predictive engines for any machine learning task. 

PredictionIO以Spark为计算引擎,mysql or HBase+Elasticsearch or PostgreSql 为数据存储,并提供了常用的模板引擎:

1、Recommenders推荐引擎。集成了Spark MLlib的协同过滤算法,可以作为电子商务、新闻、视频方面的个性化推荐。
2、Classification分类引擎。集成了Spark MLlib的朴素贝叶斯算法,提供文本内容分类、预测用户在当前会话中转化概率、(用户)流失预测等服务。
3、NPL引擎。主要做情绪分析。
4、还提供回归、聚类等其他引擎。

我们选定引擎模板,将用户行为数据导入数据库,PredictionIO帮我们完成了数据训练、建模等复杂问题,并提供了返回预测数据的restful API。
二、PredictionIO服务搭建
在服务搭建这一阶段,官方文档变得更加重要,它比任务其他的网络资料都好用,初次搭建服务的时候,一定遵照官方文档。重要的事说三遍,官方文档!官方文档!官方文档!
我在搭建服务的时候也遇到各种问题,最后把我之前已经搭好正常运行的spark环境,重新安装官方文档要求搭了一遍。所以这边文章不过是官方文档的翻译,及里面的注意点。

1、环境要求。
以下的配置很重要,至少保证是正确的,其他的版本不能保证,Spark版本和其他编程语音的版本兼容很蛋疼。
  Apache Spark 1.6.3 for Hadoop 2.6
  JDK 1.8
和以下几项的一项:
  PostgreSQL 9.1
or
  MySql 5.1
or
  Apache HBase 0.98.5
  Elasticsearch 1.7.6
2、另外
scala版本,官网写的是2.10.6,我装的是2.10.5,因为spark 1.6.3 for Hadoop 2.6自带的spark就是2.10.5,使用没有问题。

自行去官网下载predictionIO压缩包,我安装的是0.11.0,解压

tar zxvf PredictionIO-0.11.0-incubating.tar.gz
cd PredictionIO-0.11.0-incubating/bin/
需要执行install进行安装,官方文档没有说
./install.sh 安装

希望支持 scala 2.10.5  spark1.6.3  elasticsearch5.3.0
./make-distribution.sh -Dscala.version=2.10.5 -Dspark.version=1.6.3 -Delasticsearch.version=5.3.0

安装依赖,predictionIO自行下载依赖放在vendors目录下(如spark),需要先建目录,如果依赖另外安装,不需要vendors
mkdir PredictionIO-0.11.0-incubating/vendors

安装数据库
mysql 5.1 / postgreSql 9.1 / HBase 0.98.5 + Elasticsearch 1.7.6

配置依赖环境参数

cd PredictionIO-0.11.0-incubating/conf/
vi pio-env.sh
配置 Spark、数据库驱动,没有驱动jar包需要自行下载
SPARK_HOME=/Users/jiazhaopu/program/spark-1.6.3
POSTGRES_JDBC_DRIVER=$PIO_HOME/lib/postgresql-42.0.0.jar
MYSQL_JDBC_DRIVER=$PIO_HOME/lib/mysql-connector-java-5.1.41.jar

为了简单,我用mysql作为存储,但配置文件里默认使用PostgreSQL
修改Storage Repositories 为
PIO_STORAGE_REPOSITORIES_METADATA_NAME=pio_meta
PIO_STORAGE_REPOSITORIES_METADATA_SOURCE=MYSQL

PIO_STORAGE_REPOSITORIES_EVENTDATA_NAME=pio_event
PIO_STORAGE_REPOSITORIES_EVENTDATA_SOURCE=MYSQL

PIO_STORAGE_REPOSITORIES_MODELDATA_NAME=pio_model
PIO_STORAGE_REPOSITORIES_MODELDATA_SOURCE=MYSQL

# Storage Data Sources

# PostgreSQL Default Settings
# Please change "pio" to your database name in PIO_STORAGE_SOURCES_PGSQL_URL
# Please change PIO_STORAGE_SOURCES_PGSQL_USERNAME and
# PIO_STORAGE_SOURCES_PGSQL_PASSWORD accordingly
# PIO_STORAGE_SOURCES_PGSQL_TYPE=jdbc
# PIO_STORAGE_SOURCES_PGSQL_URL=jdbc:postgresql://localhost/pio
# PIO_STORAGE_SOURCES_PGSQL_USERNAME=pio
# PIO_STORAGE_SOURCES_PGSQL_PASSWORD=pio

# MySQL Example
PIO_STORAGE_SOURCES_MYSQL_TYPE=jdbc
PIO_STORAGE_SOURCES_MYSQL_URL=jdbc:mysql://127.0.0.1:3306/pio
PIO_STORAGE_SOURCES_MYSQL_USERNAME=root
PIO_STORAGE_SOURCES_MYSQL_PASSWORD=root
#PIO_STORAGE_SOURCES_MYSQL_URL 配置了数据库ip 库名,所以需要先建数据库,这里是pio库

到这里PredictionIO基础服务算搭好了,需要给PredictionIO配置环境变量

vi /etc/profile
export PATH=$PATH:/Users/jiazhaopu/program/spark-1.6.3/bin
export PATH=$PATH:/Users/jiazhaopu/program/mongodb-osx-x86_64-enterprise-3.4.9/bin
export PATH=$PATH:/usr/local/mysql/bin
export PATH=$PATH:/Users/jiazhaopu/program/apache-predictionio-0.11.0-incubating/PredictionIO/bin
export PATH=$PATH:/Users/jiazhaopu/program/scala-2.10.5/bin

配置完环境变量

启动命令
pio-start-all
如果您使用PostgreSQL或MySQL,请运行以下命令启动PredictionIO Event Server:
pio eventserver &

输出以下日志
[INFO] [HttpListener] Bound to /0.0.0.0:7070
[INFO] [EventServerActor] Bound received. EventServer is ready
说明启动成功
停服命令
pio-stop-all

访问http://localhost:7070/ 返回

{"status":"alive"}
执行pio status查看服务运行情况
[INFO] [Storage$] Verifying Model Data Backend (Source: MYSQL)...
[INFO] [Storage$] Verifying Event Data Backend (Source: MYSQL)...
[INFO] [Storage$] Test writing to Event Store (App Id 0)...
[INFO] [Management$] Your system is all ready to go.
jps -l命令查看已经启动的
54305 sun.tools.jps.Jps
10546 org.jetbrains.jps.cmdline.Launcher
28594 org.apache.predictionio.tools.console.Console
738 
54164 org.apache.predictionio.tools.console.Console
774 org.jetbrains.idea.maven.server.RemoteMavenServer
28649 org.apache.spark.deploy.SparkSubmit

三、部署模板引擎
1、下载模板引擎
这里下载的是一个数据推荐引擎,推荐原理是:
收集用户买了哪些商品,用户给商品打分这两项数据,通过协同过滤算法训练出用户喜好模型,推荐用户还会买哪些商品。

git clone https://github.com/apache/incubator-predictionio-template-recommender.git MyRecommendation
$ cd MyRecommendation

2、创建App ID 和 Access Key

pio app new MyApp1
会看到以下输出
[INFO] [App$] Initialized Event Store for this app ID: 1.
[INFO] [App$] Created new app:
[INFO] [App$]       Name: MyApp1
[INFO] [App$]         ID: 1
[INFO] [App$] Access Key: 3mZWDzci2D5YsqAnqNnXH9SB6Rg3dsTBs8iHkK6X2i54IQsIZI1eEeQQyMfs7b3F

记住App ID、Access Key、Name,在收集数据的服务器和代码里会用到

执行 pio app list 命令会列出已存在的App 列表
[INFO] [App$]                 Name |   ID |                                                       Access Key | Allowed Event(s)
[INFO] [App$]               MyApp1 |    1 | 3mZWDzci2D5YsqAnqNnXH9SB6Rg3dsTBs8iHkK6X2i54IQsIZI1eEeQQyMfs7b3F | (all)
[INFO] [App$]               MyApp2 |    2 | io5lz6Eg4m3Xe4JZTBFE13GMAf1dhFl6ZteuJfrO84XpdOz9wRCrDU44EUaYuXq5 | (all)
[INFO] [App$] Finished listing 2 app(s).

3、收集数据
PredictionIO提供了收集数据的接口,在启动了Prediction服务后可以调用它,这里需要用到Access Key。

$ curl -i -X POST http://localhost:7070/events.json?accessKey=$ACCESS_KEY \
-H "Content-Type: application/json" \
-d '{
  "event" : "rate",
  "entityType" : "user",
  "entityId" : "u0",
  "targetEntityType" : "item",
  "targetEntityId" : "i0",
  "properties" : {
    "rating" : 5
  }
  "eventTime" : "2014-11-02T09:39:45.618-08:00"
}'

模板代码里也提供了Python批量导入的方法,这里给出了两个事件,
一个是用户买商品,一个是用户给商品打分

import predictionio
client = predictionio.EventClient(
   access_key=<ACCESS KEY>,
   url=<URL OF EVENTSERVER>,
   threads=5,
   qsize=500
)
# 用户给商品打分
client.create_event(
   event="rate",
   entity_type="user",
   entity_id=<USER ID>,
   target_entity_type="item",
   target_entity_id=<ITEM ID>,
   properties= { "rating" : float(<RATING>) }
)

# 用户买商品
client.create_event(
   event="buy",
   entity_type="user",
   entity_id=<USER ID>,
   target_entity_type="item",
   target_entity_id=<ITEM ID>
)
官方给出了数据模板
https://raw.githubusercontent.com/apache/spark/master/data/mllib/sample_movielens_data.txt

把数据导入到代码中的数据文件,并执行导入代码

cd MyRecommendation
$ curl https://raw.githubusercontent.com/apache/spark/master/data/mllib/sample_movielens_data.txt --create-dirs -o data/sample_movielens_data.txt
$ python data/import_eventserver.py --access_key $ACCESS_KEY

你会看到

Importing data...
1501 events are imported.

4、部署你的引擎
编辑你的模板代码里的Engine.json,将appName 改成你自己创建的

 ...
  "datasource": {
    "params" : {
      "appName": "MyApp1"
    }
  },
  ...

Building 你的引擎

 pio build --verbose

这里可能会出现如下错误

[INFO] [Engine$] If the path above is incorrect, this process will fail.
[INFO] [Engine$] Uber JAR disabled. Making sure lib/pio-assembly-0.11.0-incubating.jar is absent.
[INFO] [Engine$] Going to run: /Users/jiazhaopu/program/apache-predictionio-0.11.0-incubating/PredictionIO/sbt/sbt  package assemblyPackageDependency in /Users/jiazhaopu/workspace/incubator-predictionio-template-recommender
[ERROR] [Engine$] Downloading sbt launcher for 0.13.15:
[ERROR] [Engine$]   From  http://repo.typesafe.com/typesafe/ivy-releases/org.scala-sbt/sbt-launch/0.13.15/sbt-launch.jar
[ERROR] [Engine$]     To  /Users/jiazhaopu/.sbt/launchers/0.13.15/sbt-launch.jar

是因为下载sbt-launch.jar出错,可以自己下载好 sbt-launch.jar,放到响应的位置,下载地址

http://repo.typesafe.com/typesafe/ivy-releases/org.scala-sbt/sbt-launch/0.13.15/sbt-launch.jar

最后你会看到

[INFO] [Console$] Your engine is ready for training.
准备好训练数据了

5、训练数据
执行以下命令开始训练数据

pio train

以为spark是基于内存的计算框架,如果内存、并行任务数配置不好,可能会运行出错,尤其是在内存不够大的PC上,可能会OutOfMemoryError 或 StackOverflowError。
我遇到的StackOverflowError错误


436542A97FAC3258145AA877DB6F57B0.jpg

我这台PC配置如下:

处理器 4核
内存  16G

原因是因为spark内存、并行任务数等相关参数配置不当。
最终的配置结果:

#spark-defaults.conf 
spark.eventLog.enabled             true
spark.driver.memory                512M  #驱动内存
spark.driver.maxResultSize         1g   #驱动最大内存
spark.driver.extraJavaOptions      -Xss32m-XX:PermSize=128M -XX:MaxPermSize=512M
spark.executor.memory              10g
spark.executor.extraJavaOptions    -XX:+PrintGCDetails -Dkey=value -Dnumbers="three"
#spark.sql.shuffle.partitions       4
spark.default.parallelism          800
spark.serializer                   org.apache.spark.serializer.KryoSerializer

spark.default.parallelism 并行任务数,一般设置在500~1000之间。我这台机器 500 和 1000都会StackOverflowErro

spark.serializer org.apache.spark.serializer.KryoSerializer 序列化,也很重要

#spark-env.sh
export SPARK_WORKER_MEMORY=14g
export SPARK_EXECUTOR_INSTANCES=1
export SPARK_EXECUTOR_CORES=4
export SCALA_HOME=/Users/jiazhaopu/program/scala-2.10.5

SPARK_WORKER_MEMORY 工作内存,尽量大
SPARK_EXECUTOR_INSTANCES 执行器实例数,单机设置1
SPARK_EXECUTOR_CORES 执行核数,等于处理器核数
SPARK_EXECUTOR_INSTANCES * SPARK_EXECUTOR_CORES = 处理器核数

数据训练完成,可以看到

[INFO] [CoreWorkflow$] Training completed successfully.

部署引擎

$ pio deploy

部署成功

[INFO] [HttpListener] Bound to /0.0.0.0:8000
[INFO] [MasterActor] Bind successful. Ready to serve.

引擎默认绑定到 http://localhost:8000/ ,打开链接看的

QQ20170929-195738@2x.png

好了,现在可以提供API来访问服务,来获取推荐结果。

为user 1 推荐的前4个数据
$ curl -H "Content-Type: application/json" \
-d '{ "user": "1", "num": 4 }' http://localhost:8000/queries.json

返回Json

按照评分降序
{
  "itemScores":[
    {"item":"22","score":4.072304374729956},
    {"item":"62","score":4.058482414005789},
    {"item":"75","score":4.046063009943821},
    {"item":"68","score":3.8153661512945325}
  ]
}
QQ20170929-200305@2x.png

到这里predictionIO的推荐服务全部搭建完成,谢谢大家的掌声。

下面是一些其他细节
1、训练数据


QQ20170929-160719@2x.png

按说spark是基于内存的计算,应该是比较耗内存,但是从表现上,内存占用很小,可能是数据小的原因,但是cpu占用很大,最高突破90%。


QQ20170929-161014@2x.png

2、部署引擎
QQ20170929-161305@2x.png

3、数据存储

为了简单,为用了mysql存储训练数据,predictionIO生成了

mysql> show tables;
+------------------------------+
| Tables_in_pio                |
+------------------------------+
| pio_event_1                  |
| pio_meta_accesskeys          |
| pio_meta_apps                |
| pio_meta_channels            |
| pio_meta_engineinstances     |
| pio_meta_evaluationinstances |
| pio_model_models             |
+------------------------------+
7 rows in set (0.00 sec)

pio_event_1 保存训练数据

mysql> select * from pio_event_1 limit 10;
+----------------------------------+-------+------------+----------+------------------+----------------+----------------+---------------------+---------------+------+------+---------------------+------------------+
| id                               | event | entityType | entityId | targetEntityType | targetEntityId | properties     | eventTime           | eventTimeZone | tags | prId | creationTime        | creationTimeZone |
+----------------------------------+-------+------------+----------+------------------+----------------+----------------+---------------------+---------------+------+------+---------------------+------------------+
| 00476c09f05240b1b46e519af98bbc5b | buy   | user       | 11       | item             | 30             | {}             | 2017-09-28 15:52:27 | UTC           | NULL | NULL | 2017-09-28 15:52:27 | UTC              |
| 004db334651f4aa6b074a91a879f90cf | buy   | user       | 8        | item             | 69             | {}             | 2017-09-28 15:52:27 | UTC           | NULL | NULL | 2017-09-28 15:52:27 | UTC              |
| 0063564f4ab945a9ae72c62654511526 | rate  | user       | 18       | item             | 75             | {"rating":1.0} | 2017-09-28 15:52:29 | UTC           | NULL | NULL | 2017-09-28 15:52:29 | UTC              |
| 007b8e2e6b9a422dbb3080649d59bd82 | buy   | user       | 11       | item             | 36             | {}             | 2017-09-28 15:52:27 | UTC           | NULL | NULL | 2017-09-28 15:52:27 | UTC              |
| 009d6156c48f44a89eec9d2aa6c3736e | buy   | user       | 4        | item             | 98             | {}             | 2017-09-28 15:52:26 | UTC           | NULL | NULL | 2017-09-28 15:52:26 | UTC              |
| 00ca2326e9414b0f8ad35d824dbe2edd | rate  | user       | 22       | item             | 19             | {"rating":1.0} | 2017-09-28 15:52:29 | UTC           | NULL | NULL | 2017-09-28 15:52:29 | UTC              |
| 00cc79d0dc20466b907cc58eb040d151 | rate  | user       | 3        | item             | 47             | {"rating":1.0} | 2017-09-28 15:52:25 | UTC           | NULL | NULL | 2017-09-28 15:52:25 | UTC              |
| 014315797d564a94abc463dbd6e1e96b | rate  | user       | 17       | item             | 60             | {"rating":1.0} | 2017-09-28 15:52:28 | UTC           | NULL | NULL | 2017-09-28 15:52:28 | UTC              |
| 01660b9b40fe411eae4f6fdf993082d4 | rate  | user       | 16       | item             | 30             | {"rating":2.0} | 2017-09-28 15:52:28 | UTC           | NULL | NULL | 2017-09-28 15:52:28 | UTC              |
| 01b0a512e1aa40bf823fd01ba7712741 | buy   | user       | 1        | item             | 54             | {}             | 2017-09-28 15:52:25 | UTC           | NULL | NULL | 2017-09-28 15:52:25 | UTC              |
+----------------------------------+-------+------------+----------+------------------+----------------+----------------+---------------------+---------------+------+------+---------------------+------------------+
10 rows in set (0.00 sec)
最后编辑于
?著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,172评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,346评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事?!?“怎么了?”我有些...
    开封第一讲书人阅读 159,788评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,299评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,409评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,467评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,476评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,262评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,699评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,994评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,167评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,827评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,499评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,149评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,387评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,028评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,055评论 2 352

推荐阅读更多精彩内容