52 1234
发新话题
打印

深度学习

深度学习

最流行的4个机器学习数据集
http://www.jianshu.com/p/be23b3870d2e

          机器学习算法需要作用于数据,而数据的本质则决定了应用的机器学习算法是否合适,而数据的质量也会决定算法表现的好坏程度。所以会研究数据,会分析数据很重要。本文作为学习研究数据系列博文的开篇,列举了4个最流行的机器学习数据集。
以上数据集下载地址http://archive.ics.uci.edu/ml/
乐乎设计,乐乎生活~

TOP

http://www.cnblogs.com/taichu/p/5251332.html
IRIS数据集的分析-数据挖掘和python入门-零门槛
初步体验libsvm用法3(matlab实例)
http://www.cnblogs.com/tornadome ... /06/04/2534939.html
乐乎设计,乐乎生活~

TOP

https://kaonashi-tyc.github.io/2017/04/06/zi2zi.html
风格迁移,对于汉字的风格变化
乐乎设计,乐乎生活~

TOP

https://github.com/kaonashi-tyc/Rewrite
源文件代码,自己可以来跑一遍吧。
乐乎设计,乐乎生活~

TOP

乐乎设计,乐乎生活~

TOP

乐乎设计,乐乎生活~

TOP

百度开源深度学习框架PaddlePaddle安装配置(单机CPU版)
http://blog.csdn.net/huludan/article/details/52661685


一、环境配置

PC机一台+Windows 7 Homebasic 系统


二、过程

1、安装Ubuntu14.04.1 64位双系统

如果你的PC机是windows系统,建议安装Linux双系统,以下以安装Ubuntu14.04.164位系统为例(这个版本比较稳定,众多软件支持,Paddle的三种安装方式都可以在Ubuntu14.04.1  64位系统上安装),如过你的系统是Linux系统,请直接转到 2)

1)请参考本人博文:windows7安装ubuntu双系统

2)安装完Ubuntu14.04.1后的一些常用软件的安装和配置可以参考本人其他博文:

安装搜狗输入法、Chrome、过滤讨厌的网页广告等:点我查看详细介绍

3)安装Anaconda和Pycharm:点我查看详细介绍;使用Python做实验,推荐安装Anaconda+Pycharm(Windows,MacOS X,Linux),Anaconda集合了Python2.7、Python3、常用的科学计算包,避免浪费时间精力安装配置各种python包,连环境变量都是安装过程自动配置的,你要做的就是点击“下一步”;Pycharm是一个出色的pythonIDE,使用过程中慢慢体会吧

4)安装Linux下看PDF的利器Okular和小巧好用的截图录屏工具Kazam:点我查看详细介绍



2、使用Docker安装PaddlePaddle

PaddlePaddle提供了三种安装方式(点我查看详细介绍):Build from source code、Docker installation、Debian Package installation,推荐使用Docker安装(不用做任何配置,目前Docker对于我这种小白来说,最大的好处是,避免安装软件时做繁琐编译、配置等操作,不利之处可能是不便于开发和调试),我尝试了上述三种方式,只有Docker顺利完成了,其他两种方式多多少少出现了一些尚未解决的问题

1)在Ubuntu14.04.1上通过清华大学的镜像安装Docker:点我查看详细参考;

2)安装完后在命令行键入sudo service docker start和sudo docker run hello-world,验证Docker正确安装;

3)正确安装后键入curl -sSL https://get.daocloud.io/daotools/set_mirror.sh | sudo sh -s http://92aa3454.m.daocloud.io,修改Docker下载源(本文中的http://92aa3454.m.daocloud.io已经失效,读者可以到daocloud官网(点我进入)注册获取一个新的免费加速器),加快Docker下载Paddle的速度;

4)修改Docker下载源后,在命令行键入sudo service docker restart,重启Docker

5)在命令行键入sudo docker run -it paddledev/paddle:cpu-latest 开始下载安装Docker,由于网络环境不同,下载速度会有所差异,等待Paddle docker的下载和安装

6)安装完成后,你会发现命令行发生变化了,变成了root@e1f3456e7992:/#,OK,安装成功


3、运行一个PaddlePaddle的Demo

我们以自然语言处理中的语义角色标注为例,参考文档和论文:点我查看论文原文 点我查看实验文档

1)首先,从github上将paddle项目拉取到本地,或者从github上直接下载项目的zip压缩包:点我进入PaddlePaddle github项目

Git拉取:在命令行键入:git clone --recursive https://github.com/baidu/Paddle.git

下载zip压缩包:项目页面右上角“Clone or download”——“Download ZIP”

2)在本地使用Pycharm打开Paddle项目,进入Paddle/demo/semantic_role_labeling/data

3)在命令行键入 bash ./get_data.sh 下载实验数据

4)启动paddle的docker镜像

在命令行键入 sudo docker run -it paddledev/paddle:cpu-latest

5)在命令行键入 mkdir /home/code 新建文件夹用于挂载宿主机上的paddle项目

在命令行键入 exit 退出docker

6)将宿主机上的Paddle项目挂载到Paddle Docker镜像里来运行

sudo docker run -it -v /home/huludan/PycharmProjects/Paddle:/home/code paddledev/paddle:cpu-latest

7)进入docker后,在命令行键入 cd /home/code/demo/semantic_role_labeling 进入训练脚本所在文件夹

在命令行键入 bash ./train.sh 开始训练模型,由于是单机CPU来跑,网络深度大,结构复杂,这个时间会稍长
乐乎设计,乐乎生活~

TOP

乐乎设计,乐乎生活~

TOP

本文知乎链接:
强烈推荐的机器学习,深度学习课程以及python库

本着两条原则发一波车:

1.不建议报辅导班。不是因为我们不应该为学习知识付费, 而是因为有更好的资源,而这些资源恰好免费。报辅导班学习浪费钱倒是次要的,主要是时间有限,所以我们要把最好的时间集中在最高效的事情上。

2.视频资源种类繁多,但我只推荐最好的。就像这世界有那么多种车,而我只开最适合自己的自行车(穷)

Are you ready?

以下课程均有中文字幕:

1.机器学习

机器学习视频我推荐大神Andrew Ng的课程:

https://www.coursera.org/learn/machine-learning/home/welcome

Andrew Ng的课程有两个版本,一个是斯坦福大学的公开课,一个是coursera上的课程。我更建议后者。首先是在couresa上讲,Andrew Ng面对的是所有在线的听众,这样自己听课就会有一种带入感,仿佛就在课堂一样,而听斯坦福大学公开课的那个版本自己听起来更像一个旁听生。其次是在couresa上作业,课件齐全,不用再到其他的地方找,减少很多麻烦。

2.深度学习

深度学习我推荐李飞飞团队主讲的《深度学习与计算机视觉》:

斯坦福CS231n-深度学习与计算机视觉 - 网易云课堂

课件下载:

amazingzby/cs231n

剧透一丢丢:第一节李飞飞讲课时怀着孩子,所以只能坐着讲课,但课程内容依然interesting 。

3.推荐个与机器学习,深度学习不相关的课程,Jerry Cain讲的《编程范式》,我只听过前几节,感觉超级赞,就推荐给大家了

斯坦福大学公开课:编程范式_全27集_网易公开课

OK!第一波已经结束,来第二波

介绍几款常用的Python库:

1.numpy

NumPy - NumPy

处理数组,矩阵非常有效的库,不会numpy,学后面的白搭。

2.matplotlib

python plotting - Matplotlib 1.5.3 documentation

数据可视化(其实就是画图,直方图,折线图,饼状图等等)必备。

3.pandas

Python Data Analysis Library

pandas主要用于清洗数据,如果输入数据不那么规范(比如有数据丢失或有无效数字),用pandas处理会非常方便。

4.sklearn

http://scikit-learn.org/

机器学习必备

5.tensorflow

https://www.tensorflow.org/

这个不解释,老司机都懂的!

今天就先开到这里,下车前记得刷卡~
乐乎设计,乐乎生活~

TOP

PaddlePaddle的Docker容器使用方式

PaddlePaddle目前唯一官方支持的运行的方式是Docker容器。因为Docker能在所有主要操作系统(包括Linux,Mac OS X和Windows)上运行。 请注意,您需要更改 Dockers设置 才能充分利用Mac OS X和Windows上的硬件资源。
PaddlePaddle发布的Docker镜像使用说明

我们把PaddlePaddle的编译环境打包成一个镜像,称为开发镜像,里面涵盖了 PaddlePaddle需要的所有编译工具。把编译出来的PaddlePaddle也打包成一个镜 像,称为生产镜像,里面涵盖了PaddlePaddle运行所需的所有环境。每次 PaddlePaddle发布新版本的时候都会发布对应版本的生产镜像以及开发镜像。运 行镜像包括纯CPU版本和GPU版本以及其对应的非AVX版本。我们会在 dockerhub.com 提供最新 的Docker镜像,可以在"tags"标签下找到最新的Paddle镜像版本。为了方便在国 内的开发者下载Docker镜像,我们提供了国内的镜像服务器供大家使用。如果您 在国内,请把文档里命令中的paddlepaddle/paddle替换成 docker.paddlepaddle.org/paddle。

    开发镜像:paddlepaddle/paddle:<version>-dev

    这个镜像包含了Paddle相关的开发工具以及编译和运行环境。用户可以使用开发镜像代替配置本地环境,完成开发,编译,发布, 文档编写等工作。由于不同的Paddle的版本可能需要不同的依赖和工具,所以如果需要自行配置开发环境需要考虑版本的因素。 开发镜像包含了以下工具:
        gcc/clang
        nvcc
        Python
        sphinx
        woboq
        sshd

    很多开发者会使用远程的安装有GPU的服务器工作,用户可以使用ssh登录到这台服务器上并执行 :code:`docker exec`进入开发镜像并开始工作, 也可以在开发镜像中启动一个SSHD服务,方便开发者直接登录到镜像中进行开发:

    以交互容器方式运行开发镜像:

    docker run -it --rm paddlepaddle/paddle:<version>-dev /bin/bash

    或者,可以以后台进程方式运行容器:

    docker run -d -p 2202:22 -p 8888:8888 paddledev/paddle:<version>-dev

    然后用密码 root SSH进入容器:

    ssh -p 2202 root@localhost

    SSH方式的一个优点是我们可以从多个终端进入容器。比如,一个终端运行vi,另一个终端运行Python。另一个好处是我们可以把PaddlePaddle容器运行在远程服务器上,并在笔记本上通过SSH与其连接。

    生产镜像:根据CPU、GPU和非AVX区分了如下4个镜像:
        GPU/AVX:paddlepaddle/paddle:<version>-gpu
        GPU/no-AVX:paddlepaddle/paddle:<version>-gpu-noavx
        CPU/AVX:paddlepaddle/paddle:<version>
        CPU/no-AVX:paddlepaddle/paddle:<version>-noavx

    纯CPU镜像以及GPU镜像都会用到AVX指令集,但是2008年之前生产的旧电脑不支持AVX。以下指令能检查Linux电脑是否支持AVX:

    if cat /proc/cpuinfo | grep -i avx; then echo Yes; else echo No; fi

    如果输出是No,就需要选择使用no-AVX的镜像

    以上方法在GPU镜像里也能用,只是请不要忘记提前在物理机上安装GPU最新驱动。 为了保证GPU驱动能够在镜像里面正常运行,我们推荐使用[nvidia-docker](https://github.com/NVIDIA/nvidia-docker)来运行镜像。

    nvidia-docker run -it --rm paddledev/paddle:0.10.0rc1-gpu /bin/bash

    注意: 如果使用nvidia-docker存在问题,你也许可以尝试更老的方法,具体如下,但是我们并不推荐这种方法。:

    export CUDA_SO="$(\ls /usr/lib64/libcuda* | xargs -I{} echo '-v {}:{}') $(\ls /usr/lib64/libnvidia* | xargs -I{} echo '-v {}:{}')"
    export DEVICES=$(\ls /dev/nvidia* | xargs -I{} echo '--device {}:{}')
    docker run ${CUDA_SO} ${DEVICES} -it paddledev/paddle:<version>-gpu

    运行以及发布您的AI程序

    假设您已经完成了一个AI训练的python程序 a.py,这个程序是您在开发机上使用开发镜像完成开发。此时您可以运行这个命令在开发机上进行测试运行:

    docker run -it -v $PWD:/work paddle /work/a.py

    如果要使用GPU,请运行:

    nvidia-docker run -it -v $PWD:/work paddle /work/a.py

    这里`a.py`包含的所有依赖假设都可以在Paddle的运行容器中。如果需要包含更多的依赖、或者需要发布您的应用的镜像,可以编写`Dockerfile`使用`FROM paddledev/paddle:<version>` 创建和发布自己的AI程序镜像。

运行PaddlePaddle Book

Jupyter Notebook是一个开源的web程序,大家可以通过它制作和分享带有代码、公式、图表、文字的交互式文档。用户可以通过网页浏览文档。

PaddlePaddle Book是为用户和开发者制作的一个交互式的Jupyter Nodebook。 如果您想要更深入了解deep learning,PaddlePaddle Book一定是您最好的选择。

我们提供可以直接运行PaddlePaddle Book的Docker镜像,直接运行:

docker run -p 8888:8888 paddlepaddle/book

然后在浏览器中输入以下网址:

http://localhost:8888/

就这么简单,享受您的旅程!
通过Docker容器开发PaddlePaddle

开发人员可以在Docker开发镜像中开发PaddlePaddle。这样开发人员可以以一致的方式在不同的平台上工作 - Linux,Mac OS X和Windows。

    制作PaddlePaddle开发镜像

    PaddlePaddle每次发布新版本都会发布对应的开发镜像供开发者直接使用。这里介绍如生成造这个开发镜像。 生成Docker镜像的方式有两个,一个是直接把一个容器转换成镜像,另一个是创建Dockerfile并运行docker build指令按照Dockerfile生成镜像。第一个方法的好处是简单快捷,适合自己实验,可以快速迭代。第二个方法的好处是Dockerfile可以把整个生成流程描述很清楚,其他人很容易看懂镜像生成过程,持续集成系统也可以简单地复现这个过程。我们采用第二个方法。Dockerfile位于PaddlePaddle repo的根目录。生成生产镜像只需要运行:

    git clone https://github.com/PaddlePaddle/Paddle.git
    cd Paddle
    docker build -t paddle:dev .

    docker build这个命令的-t指定了生成的镜像的名字,这里我们用paddle:dev。到此,PaddlePaddle开发镜像就被构建完毕了。

    制作PaddlePaddle生产镜像

    生产镜像的生成分为两步,第一步是运行:

    docker run -v $(pwd):/paddle -e "WITH_GPU=OFF" -e "WITH_AVX=OFF" -e "WITH_TEST=ON" paddle:dev

    以上命令会编译PaddlePaddle,生成运行程序,以及生成创建生产镜像的Dockerfile。所有生成的的文件都在build目录下。“WITH_GPU”控制生成的生产镜像是否支持GPU,“WITH_AVX”控制生成的生产镜像是否支持AVX,”WITH_TEST“控制是否生成单元测试。

    第二步是运行:

    docker build -t paddle:prod -f build/Dockerfile ./build

    以上命令会按照生成的Dockerfile把生成的程序拷贝到生产镜像中并做相应的配置,最终生成名为paddle:prod的生产镜像。

    运行单元测试

    运行以下指令:

    docker run -it -v $(pwd):/paddle paddle:dev bash -c "cd /paddle/build && ctest"

文档

Paddle的Docker开发镜像带有一个通过 woboq code browser 生成的HTML版本的C++源代码,便于用户浏览C++源码。

只要在Docker里启动PaddlePaddle的时候给它一个名字,就可以再运行另一个Nginx Docker镜像来服务HTML代码:

docker run -d --name paddle-cpu-doc paddle:<version>-dev
docker run -d --volumes-from paddle-cpu-doc -p 8088:80 nginx

接着我们就能够打开浏览器在 http://localhost:8088/paddle/ 浏览代码。
乐乎设计,乐乎生活~

TOP

http://www.ddaayy.com
HIBOP:基于深度学习的手写笔迹鉴别
乐乎设计,乐乎生活~

TOP

https://html5up.net/
html5模板网站
乐乎设计,乐乎生活~

TOP

乐乎设计,乐乎生活~

TOP

http://www.tensorfly.cn/
tensorflow中文站
乐乎设计,乐乎生活~

TOP

Anaconda具有跨平台、包管理、环境管理的特点,因此很适合快速在新的机器上部署Python环境。总结而言,整套安装、配置流程如下:

    下载Anaconda、安装
    配置PATH(bashrc或环境变量),更改TUNA镜像源
    创建所需的不用版本的python环境
    Just Try
乐乎设计,乐乎生活~

TOP

 52 1234
发新话题