如果你是一名数据科学家 , 需要导入2022年美国全国汽车销售数据 , 您只需要两行代码即可完成:
spark_ai = SparkAI auto_df = spark_ai.create_df("2022 USA national auto sales by brand")DataFrame 操作
对于给定的 DataFrame 对象 , SDK 允许你运行以 df.ai 开头的方法 。这包括转换、绘图、DataFrame 解释等等 。
要激活 PySpark DataFrame 的部分函数:
spark_ai.activate要预览 auto_df:
auto_df.ai.plot要查看各汽车公司的市场份额分布:
auto_df.ai.plot("pie chart for US sales market shares, show the top 5 brands and the sum of others")要获取增长最快的品牌:
???????auto_top_growth_df=auto_df.ai.transform("top brand with the highest growth") auto_top_growth_df.show要获取 DataFrame 的解释:
auto_top_growth_df.ai.explain总的来说 , 这个 DataFrame 正在查找销售增长最快的品牌 。它将结果按销售增长率降序排列 , 并仅返回增长最快的结果 。
自定义函数 (UDFs) SDK
支持通过简单而清晰的方式创建自定义函数 。使用@spark_ai.udf装饰器 , 你只需定义一个带有文档字符串的函数 , SDK 就会在后台自动完成代码生成:
???????@spark_ai.udf def convert_grades(grade_percent: float) -> str: """Convert the grade percent to a letter grade using standard cutoffs""" ...现在 , 你可以在 SQL 查询或 DataFrames 中使用这个自定义函数(UDF)
SELECT student_id, convert_grades(grade_percent) FROM grade总结
Apache Spark 的英语 SDK 是一个既简洁又强大的工具 , 能够显著提升你的开发效率 。它的目标是简化复杂的任务 , 减少必需的代码量 , 使你可以专注于从数据中挖掘洞察 。
虽然英语 SDK 还处于早期的开发阶段 , 但未来可期 。我们鼓励你去尝试这个创新的工具 , 亲身感受其带来的便利 , 并考虑为此项目贡献自己的一份力量 。不要在这场革命中袖手旁观 , 而应该积极参与其中 。现在就去 pyspark.ai 上探索和体验英语 SDK 的强大功能吧 。你的参与和洞见 , 将为扩大 Apache Spark 的影响力做出重要贡献 。
【Apache Spark 的新编程语言】
推荐阅读
- 揭秘华为行业大模型:不作诗的盘古,只做哪些事?
- 郑爽近况曝光:头发稀疏成大妈,卫生纸都得省着用,穷的只能喝白开水
- 你觉得“三无”出身家庭的高考生,学医还是学师范好?好好看看吧
- 好看不贵的文玩配饰
- 为国争光!消失的她进2023全球票房榜前十,朱一龙力压好莱坞巨星
- 你没见过的《狂飙》大嫂,颜值高到认不出
- 悲哀,浙大女生被曝跪地向黑人求婚,郑强的话基本白讲了
- 最适合巧雕的狭义和田玉!老玩家最爱的且末糖“观音”、“福猪”!
- 站LV总裁旁的中国美女,把裙子都带火了!穿平底鞋巡店,衣品好牛
- 闷竿高手的方法,持续诱鱼,不断上鱼,学会也是高手
