Pyspark Interveiew Questions

Pyspark Interview Questions

What is Apache Spark ?

[{"selector":"#anim-479b914b-4407-4760-b624-a2ac4f3c5439","keyframes":{"opacity":[0,1]},"delay":0,"duration":2600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-2a950121-733c-4992-b869-ef059475c56b","keyframes":{"transform":["translate3d(-116.93811%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":2600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-fe91cdd6-3f9a-4647-915a-d56c94476ce9","keyframes":{"opacity":[0,1]},"delay":0,"duration":2600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-4a3943c1-9fb9-43e3-8f74-477da36c3f2d","keyframes":{"transform":["translate3d(-116.93811%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":2600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-f015d7dc-1e18-4728-afb0-9f2d884fe123 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate(-3.552713678800501e-15%, 0%) scale(1.5)","translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] Apache Spark is an open-source, distributed computing system designed for fast processing of large datasets

What are the key features of PySpark?

[{"selector":"#anim-fca68d00-bfd4-4fa8-867a-145c2968bea8 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(12.499999772451451%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-aa675853-9b04-408e-8f6f-196d4f071c2f","keyframes":{"opacity":[1,1]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-d760fb8c-c70d-48a2-8c45-44f69d4e9eec","keyframes":{"transform":["scale(3)","scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-cf03cfcc-f4b8-47d8-b8d4-2d93179e8959","keyframes":{"opacity":[1,1]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-e4885836-3eca-422d-a03e-1e9c1eeb13f0","keyframes":{"transform":["scale(3)","scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] – Distributed computing for large-scale data processing. – High-level APIs for data manipulation (DataFrame and SQL). – Fault tolerance via RDDs.

What is a SparkSession in PySpark

[{"selector":"#anim-e0f7007d-9787-4706-88c9-573db6dff549 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-14.843749786673241%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}] [{"selector":"#anim-7b5e2cda-6523-462c-bf4c-4d2d82085275","keyframes":{"opacity":[0,1]},"delay":0,"duration":2600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-97b39770-00a9-4456-8da1-29d4932741f8","keyframes":{"transform":["translate3d(0px, -803.472%, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":2600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-2ef9473d-5209-41c3-ae80-0176bf6140f6","keyframes":{"opacity":[0,1]},"delay":0,"duration":2600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-ef3aeb5e-7471-4b75-a6f5-17c6ba1ddc6a","keyframes":{"transform":["translate3d(0px, -530.26201%, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":2600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] – SparkSession is the entry point to PySpark functionality. It is responsible for creating DataFrames, executing SQL queries, and managing configurations. It replaces SQLContext and HiveContext in earlier versions of Spark.

[{"selector":"#anim-5efdc1bb-5d78-408b-b95e-dc1eba1de1d9 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate(0%, 0%) scale(1.5)","translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-ab036038-cb83-4b00-a225-043d25caa682","keyframes":{"opacity":[0,1]},"delay":0,"duration":2600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-e82b4da1-756e-484b-b188-23b26dcaa0dd","keyframes":{"opacity":[0,1]},"delay":0,"duration":2600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] What is the difference between select() and selectExpr() in PySpark? – select(): Used for selecting columns directly by name or by applying functions to columns. – selectExpr(): Allows using SQL expressions to select and manipulate columns, providing more flexibility with complex expressions. Learn more

Pyspark Interview Questions

By.Yogesh

14/11/2024

What is Apache Spark ?

What are the key features of PySpark?

What is a SparkSession in PySpark