Data Science Interview Questions for Cognizant

What is data skew?

[{"selector":"#anim-357c1f9e-1742-41e0-b4fc-faa3978c2ad8 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate(-3.552713678800501e-15%, 0%) scale(1.5)","translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-d3a9fda9-ec9a-4331-839e-18fb02f96880","keyframes":{"opacity":[0,1]},"delay":0,"duration":2600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-49669def-3a61-42ad-8a93-8ad4adfcdb23","keyframes":{"transform":["translate3d(-147.86729%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":2600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-471657ac-f8ba-4141-a0d8-55e2f6dc575a","keyframes":{"opacity":[0,1]},"delay":0,"duration":2600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-ceea59c3-d92b-4806-a6fa-b408b6d4f40b","keyframes":{"transform":["translate3d(128.07691%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":2600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] Data skew occurs when data is not evenly distributed across partitions in a distributed computing system like Spark

What optimization techniques are you using?

[{"selector":"#anim-dda3d143-3ec2-4bd6-8a2f-83fad85621a1","keyframes":{"opacity":[0,1]},"delay":0,"duration":2600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-6529795a-7a92-4459-9c29-fabb7c436932","keyframes":{"transform":["translate3d(0px, 391.83406%, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":2600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-97103881-0f9e-4450-9955-9c3b5f2bb7ff","keyframes":{"opacity":[0,1]},"delay":0,"duration":2600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-dac50a62-bb01-4475-a6d2-828cd3b0f38e","keyframes":{"transform":["translate3d(0px, -441.08879%, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":2600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-93e5aa84-bc6c-4551-9c34-66a4de3dcf9d [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-7.614992720337516%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}] Data partitioning to optimize read and write. Caching frequently used data. Broadcast joins to optimize joins with small tables. Reducing shuffles by controlling partition sizes and join strategies.

What is a DAG?

[{"selector":"#anim-157b2db1-da48-4029-89d1-00bf911defbb [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(7.812499744007886%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-573d6017-c705-4045-b972-ef3db7360560","keyframes":{"transform":["translate3d(-130.9804%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":2600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-4a3b1d4c-98b8-401a-a3fb-c2fc1c3f8203","keyframes":{"opacity":[0,1]},"delay":0,"duration":2600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-bf6a977e-b96b-475d-9af8-2d7439eb74d3","keyframes":{"transform":["scale(0.15)","scale(1)"]},"delay":0,"duration":2600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"forwards"}] [{"selector":"#anim-b1b3c558-a4ee-41dc-bd26-86977cb652f9","keyframes":{"transform":["translate3d(130.11583%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":2600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-df40b349-a061-457a-92b6-5738ccabf4ce","keyframes":{"opacity":[0,1]},"delay":0,"duration":2600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-f4355693-2565-4b73-b240-8672423a15ae","keyframes":{"transform":["scale(0.15)","scale(1)"]},"delay":0,"duration":2600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"forwards"}] A Directed Acyclic Graph (DAG) represents the sequence of stages in a computation. In Spark, a DAG visualizes the dependencies between different tasks and helps Spark optimize execution by determining the best task order and handling fault tolerance.

What transformations on data have you done?

[{"selector":"#anim-e70db7b1-58b7-4564-83c1-af450d294d1f [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-7.812499744007886%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}] [{"selector":"#anim-0aea302e-1caa-4acb-9917-f2666016d250","keyframes":{"opacity":[0,1]},"delay":0,"duration":2600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-125d779d-19d4-430d-ad64-4be1d1100da9","keyframes":{"transform":["translate3d(-130.9804%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":2600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-1eef1e09-45b7-4542-84e9-6f935dada143","keyframes":{"opacity":[0,1]},"delay":0,"duration":2600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-925b1491-5748-4880-a4e6-f5ebf73de1b1","keyframes":{"transform":["translate3d(128.07691%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":2600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] Common transformations include data cleansing, filtering, normalization, feature engineering, and aggregations. Learn more