python如何读取hdfs上的文件

作者

首页»
云计算»
知识库»
python如何读取hdfs上的文件

发布时间:2024-07-13 14:20

阅读量:1

在Python中读取HDFS上的文件可以使用pyarrow库。pyarrow是一个Apache Arrow的Python接口，可以用来读写HDFS上的文件。

以下是一个示例代码，演示如何使用pyarrow库读取HDFS上的Parquet文件：

import pyarrow as pa import pyarrow.parquet as pq  # 创建HDFS连接 fs = pa.hdfs.connect()  # 指定HDFS上的Parquet文件路径 file_path = 'hdfs://<namenode>:<port>/path/to/parquet/file.parquet'  # 读取Parquet文件 table = pq.read_table(file_path, filesystem=fs)  # 将table转换为Pandas DataFrame df = table.to_pandas()  # 打印DataFrame print(df)