python如何读取hdfs上的文件

avatar
作者
猴君
阅读量:1

在Python中读取HDFS上的文件可以使用pyarrow库。pyarrow是一个Apache Arrow的Python接口,可以用来读写HDFS上的文件。

以下是一个示例代码,演示如何使用pyarrow库读取HDFS上的Parquet文件:

import pyarrow as pa import pyarrow.parquet as pq  # 创建HDFS连接 fs = pa.hdfs.connect()  # 指定HDFS上的Parquet文件路径 file_path = 'hdfs://<namenode>:<port>/path/to/parquet/file.parquet'  # 读取Parquet文件 table = pq.read_table(file_path, filesystem=fs)  # 将table转换为Pandas DataFrame df = table.to_pandas()  # 打印DataFrame print(df) 

需要注意的是,在代码中需要替换<namenode><port>为实际的HDFS Namenode地址和端口号,以及替换/path/to/parquet/file.parquet为实际的Parquet文件路径。

通过以上代码,您可以读取HDFS上的Parquet文件并将其转换为Pandas DataFrame进行进一步处理。

广告一刻

为您即时展示最新活动产品广告消息,让您随时掌握产品活动新动态!