机器学习——Python常用库
Python常用库
1. Numpy
numpy(Numerical Python的简称)是高性能科学计算和数据分析的基础包。其部分功能如下:
ndarray,一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。 用于对整组数据进行快速运算的标准数学函数(无需编写循环)。 用于读写磁盘数据的工具以及用于操作内存映射文件的工具。 线性代数、随机数生成以及傅里叶变换功能。 用于集成由C、C++、Fortran等语言编写的代码的工具。
2. Pandas
pandas是python第三方库,提供高性能易用数据类型和分析工具 pandas基于numpy实现,常与numpy和matplotlib一同使用 pandas中有两大核心数据结构:Series(一维数据) 和 DataFrame(多特征数据,既有行索引,又有列索引)
3. PIL
PIL库是一个具有强大图像处理能力的第三方库 在命令行下的安装方法:pip install pillow 在使用过程中的引入方法:from PIL import Image Image 是 PIL 库中代表一个图像的类(对象) 图像是一个由像素组成的二维矩阵,每个元素是一个RGB值
4. Matplotlib
Matplotlib库由各种可视化类构成,内部结构复杂。 受Matlab启发,matplotlib.pylot是绘制各类可视化图形的命令字库,相当于快捷方式。
5. scikit-learn
scikit-learn(简称 sklearn)是一个开源的
Python
库,广泛应用于机器学习任务,提供了丰富的工具和算法,能够帮助数据科学家和机器学习工程师高效地进行数据预处理、模型训练、评估和优化。它基于
NumPy、SciPy 和
matplotlib,具有以下主要特点和功能:
主要功能:
- 分类 (Classification) :用于预测数据点所属的类别(如垃圾邮件分类、疾病预测等)。
- 回归 (Regression) :用于预测连续的数值(如房价预测、股票价格预测等)。
- 聚类 (Clustering) :将数据点分为不同的簇或组(如客户细分、图像分割等)。
- 降维 (Dimensionality Reduction) :减少数据的维度,常用于数据压缩和可视化。
- 模型评估 (Model Evaluation) :提供评估工具,如交叉验证、准确率、F1 分数等。
- 数据预处理 (Data Preprocessing) :包括标准化、归一化、缺失值处理、编码等。
- 超参数调优 (Hyperparameter Tuning) :通过网格搜索(GridSearchCV)和随机搜索(RandomizedSearchCV)来优化模型超参数。